Introdução
O Azure Databricks é uma plataforma de dados baseada na nuvem que reúne o melhor da engenharia de dados, ciência de dados e aprendizagem automática num único espaço de trabalho unificado. Construído sobre o Apache Spark, ele permite que as organizações processem, analisem e visualizem facilmente grandes quantidades de dados em tempo real.
Ao conectar-se a uma ampla variedade de fontes de dados, desde provedores de nuvem como o Banco de Dados SQL do Azure, Amazon S3 e Google Cloud Storage, até sistemas corporativos como SAP e Oracle – o Azure Databricks facilita a integração e a transformação de dados de qualquer lugar.
Depois que os dados são ingeridos, as equipes de vendas, marketing, operações, finanças, RH e sustentabilidade podem usar o Databricks para análises avançadas, aprendizado de máquina, business intelligence e insights orientados por IA.
Em sua essência, o Azure Databricks ajuda as organizações a:
- Integre dados de várias fontes
- Projete e transforme dados brutos em formatos utilizáveis
- Armazene e gerencie dados de forma eficiente com governança e segurança
- Aplique análises em tempo real, aprendizado de máquina e modelos de IA
- Promova melhores decisões e resultados de negócios
Data Lakehouse
Um data lakehouse é uma abordagem de gestão de dados que combina os pontos fortes dos data lakes e dos data warehouses. Ele oferece armazenamento e processamento escaláveis, permitindo que as organizações lidem com diversas cargas de trabalho, como aprendizado de máquina e business intelligence, sem depender de sistemas separados e desconectados. Ao centralizar os dados, um lakehouse suporta uma única fonte de verdade, reduz custos duplicados e garante que as informações permaneçam atualizadas.
Muitas lagoas seguem um padrão de design em camadas, onde os dados são gradualmente melhorados, enriquecidos e refinados à medida que passam por diferentes estágios de processamento. Essa abordagem em camadas, comumente chamada de arquitetura medalhão, organiza os dados em estágios que se baseiam uns nos outros, facilitando o gerenciamento e o uso eficaz.
O lago Databricks usa duas tecnologias-chave:
- Delta Lake: uma camada de armazenamento otimizada que suporta transações ACID e imposição de esquema.
- Unity Catalog: uma solução de governança unificada e refinada para dados e IA.