Introdução

Concluído

O Azure Databricks é uma plataforma de dados baseada em nuvem que reúne o melhor da engenharia de dados, ciência de dados e machine learning em um único workspace unificado. Criado com base no Apache Spark, ele permite que as organizações processem, analisem e visualizem facilmente grandes quantidades de dados em tempo real.

Diagrama mostrando uma visão geral do Azure Databricks.

Ao se conectar a uma ampla gama de fontes de dados, desde provedores de nuvem como o Banco de Dados SQL do Azure, o Amazon S3 e o Google Cloud Storage, até sistemas empresariais como SAP e Oracle, o Azure Databricks facilita a integração e a transformação de dados de qualquer lugar.

Depois que os dados são ingeridos, as equipes de vendas, marketing, operações, finanças, RH e sustentabilidade podem usar o Databricks para análise avançada, machine learning, business intelligence e insights orientados por IA.

Em sua essência, o Azure Databricks ajuda as organizações:

  • Integrar dados de várias fontes
  • Projetar e transformar dados brutos em formatos utilizáveis
  • Armazenar e gerenciar dados com eficiência com governança e segurança
  • Aplicar a análise em tempo real, o aprendizado de máquina e os modelos de IA
  • Impulsionar melhores decisões e resultados de negócios

Data Lakehouse

Um data lakehouse é uma abordagem de gerenciamento de dados que combina os pontos fortes dos data lakes e data warehouses. Ele oferece armazenamento e processamento escalonáveis, permitindo que as organizações lidem com cargas de trabalho diversas, como machine learning e business intelligence, sem depender de sistemas separados e desconectados. Centralizando dados, um lakehouse dá suporte a uma única fonte confiável, reduz custos redundantes e garante que as informações permaneçam atualizadas.

Muitas lakehouses seguem um padrão de design em camadas em que os dados são gradualmente aprimorados, enriquecidos e refinados à medida que se movem por diferentes estágios de processamento. Essa abordagem em camadas, comumente chamada de arquitetura de medalhão, organiza dados em estágios que se baseiam uns nos outros, facilitando o gerenciamento e o uso com eficiência.

O Databricks Lakehouse usa duas tecnologias importantes:

  • Delta Lake: uma camada de armazenamento otimizada que dá suporte a transações ACID e imposição de esquema.
  • Catálogo do Unity: uma solução de governança unificada e refinada para dados e IA.