Introdução

Concluído

O Azure Databricks é uma plataforma de dados baseada na nuvem que reúne o melhor da engenharia de dados, ciência de dados e aprendizagem automática num único espaço de trabalho unificado. Construído sobre o Apache Spark, ele permite que as organizações processem, analisem e visualizem facilmente grandes quantidades de dados em tempo real.

Diagrama mostrando uma Visão geral do Azure Databricks.

Ao conectar-se a uma ampla variedade de fontes de dados, desde provedores de nuvem como o Banco de Dados SQL do Azure, Amazon S3 e Google Cloud Storage, até sistemas corporativos como SAP e Oracle – o Azure Databricks facilita a integração e a transformação de dados de qualquer lugar.

Depois que os dados são ingeridos, as equipes de vendas, marketing, operações, finanças, RH e sustentabilidade podem usar o Databricks para análises avançadas, aprendizado de máquina, business intelligence e insights orientados por IA.

Em sua essência, o Azure Databricks ajuda as organizações a:

  • Integre dados de várias fontes
  • Projete e transforme dados brutos em formatos utilizáveis
  • Armazene e gerencie dados de forma eficiente com governança e segurança
  • Aplique análises em tempo real, aprendizado de máquina e modelos de IA
  • Promova melhores decisões e resultados de negócios

Data Lakehouse

Um data lakehouse é uma abordagem de gestão de dados que combina os pontos fortes dos data lakes e dos data warehouses. Ele oferece armazenamento e processamento escaláveis, permitindo que as organizações lidem com diversas cargas de trabalho, como aprendizado de máquina e business intelligence, sem depender de sistemas separados e desconectados. Ao centralizar os dados, um lakehouse suporta uma única fonte de verdade, reduz custos duplicados e garante que as informações permaneçam atualizadas.

Muitas lagoas seguem um padrão de design em camadas, onde os dados são gradualmente melhorados, enriquecidos e refinados à medida que passam por diferentes estágios de processamento. Essa abordagem em camadas, comumente chamada de arquitetura medalhão, organiza os dados em estágios que se baseiam uns nos outros, facilitando o gerenciamento e o uso eficaz.

O lago Databricks usa duas tecnologias-chave:

  • Delta Lake: uma camada de armazenamento otimizada que suporta transações ACID e imposição de esquema.
  • Unity Catalog: uma solução de governança unificada e refinada para dados e IA.