Introdução
O Azure Databricks é uma plataforma de dados baseada em nuvem que reúne o melhor da engenharia de dados, ciência de dados e machine learning em um único workspace unificado. Criado com base no Apache Spark, ele permite que as organizações processem, analisem e visualizem facilmente grandes quantidades de dados em tempo real.
Ao se conectar a uma ampla gama de fontes de dados, desde provedores de nuvem como o Banco de Dados SQL do Azure, o Amazon S3 e o Google Cloud Storage, até sistemas empresariais como SAP e Oracle, o Azure Databricks facilita a integração e a transformação de dados de qualquer lugar.
Depois que os dados são ingeridos, as equipes de vendas, marketing, operações, finanças, RH e sustentabilidade podem usar o Databricks para análise avançada, machine learning, business intelligence e insights orientados por IA.
Em sua essência, o Azure Databricks ajuda as organizações:
- Integrar dados de várias fontes
- Projetar e transformar dados brutos em formatos utilizáveis
- Armazenar e gerenciar dados com eficiência com governança e segurança
- Aplicar a análise em tempo real, o aprendizado de máquina e os modelos de IA
- Impulsionar melhores decisões e resultados de negócios
Data Lakehouse
Um data lakehouse é uma abordagem de gerenciamento de dados que combina os pontos fortes dos data lakes e data warehouses. Ele oferece armazenamento e processamento escalonáveis, permitindo que as organizações lidem com cargas de trabalho diversas, como machine learning e business intelligence, sem depender de sistemas separados e desconectados. Centralizando dados, um lakehouse dá suporte a uma única fonte confiável, reduz custos redundantes e garante que as informações permaneçam atualizadas.
Muitas lakehouses seguem um padrão de design em camadas em que os dados são gradualmente aprimorados, enriquecidos e refinados à medida que se movem por diferentes estágios de processamento. Essa abordagem em camadas, comumente chamada de arquitetura de medalhão, organiza dados em estágios que se baseiam uns nos outros, facilitando o gerenciamento e o uso com eficiência.
O Databricks Lakehouse usa duas tecnologias importantes:
- Delta Lake: uma camada de armazenamento otimizada que dá suporte a transações ACID e imposição de esquema.
- Catálogo do Unity: uma solução de governança unificada e refinada para dados e IA.