Compartilhar via


Arquiteturas de referência do Lakehouse (download)

Este artigo fornece diretrizes de arquitetura para o lakehouse, abrangendo fontes de dados, ingestão, transformação, consulta e processamento, serviço, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download no formato 11 x 17 (A3).

Embora o lakehouse no Databricks seja uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas nos serviços do Azure e no Databricks Lakehouse. Os serviços do provedor de nuvem mostrados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência Arquitetura de referência para o lakehouse do Azure Databricks.

Download: arquitetura de referência para o lakehouse do Azure Databricks

A arquitetura de referência do Azure mostra os seguintes serviços específicos do Azure para ingestão, armazenamento, serviço e análise:

  • Azure Synapse e SQL Server como sistemas de origem para a Lakehouse Federation
  • Hub IoT do Azure e Hubs de Eventos do Azure para ingestão de streaming
  • Azure Data Factory para ingestão em lote
  • ADLS (Azure Data Lake Storage Gen2) como o armazenamento de objetos para dados e ativos de IA
  • Banco de dados SQL do Azure e Azure Cosmos DB como bancos de dados operacionais
  • Azure Purview como o catálogo empresarial para o qual a UC exporta informações de esquema e linhagem
  • Power BI como a ferramenta de BI
  • O Azure OpenAI pode ser usado pelo Model Servindo como uma LLM externa

Organização das arquiteturas de referência

A arquitetura de referência é estruturada ao longo das pistas Fonte, Ingerir, Transformação, Consulta/Processo, Entrega, Análise e Armazenamento:

  • Source

    Há três maneiras de integrar dados externos à Plataforma de Inteligência de Dados:

    • ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos empresariais.
    • Lakehouse Federation: fontes SQL, como bancos de dados relacionais, podem ser integradas ao Lakehouse e ao Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são gerenciados pelo Unity Catalog, e as consultas são encaminhadas para o sistema de origem.
    • Federação do Catálogo: os catálogos metastore do Hive também podem ser integrados ao Catálogo do Unity por meio da federação do catálogo, permitindo que o Catálogo do Unity controle as tabelas armazenadas no Metastore do Hive.
  • Ingest

    Ingerir dados no lakehouse por meio de lote ou streaming:

  • Storage

  • Transformação e Consulta/Processo

    • O Databricks lakehouse usa seus mecanismos Apache Spark e Photon para todas as transformações e consultas.

    • Pipelines é uma estrutura declarativa para simplificar e otimizar pipelines de processamento de dados confiáveis, manteníveis e testáveis.

    • Com o Apache Spark e o Photon, a Plataforma de Inteligência de Dados do Databricks dá suporte a ambos os tipos de cargas de trabalho: consultas SQL por meio de armazéns SQL e cargas de trabalho SQL, Python e Scala por meio de clusters de espaço de trabalho.

    • Para a ciência de dados (ML Modeling e Gen AI), a plataforma de IA e Machine Learning do Databricks fornece runtimes de ML especializados para AutoML e para codificação de trabalhos de ML. Todos os fluxos de trabalho de ciência de dados e MLOps são melhor suportados pelo MLflow.

  • Serving

    • Quanto aos casos de uso de armazenamento de dados (DWH) e BI, o lakehouse do Databricks fornece o Databricks SQL, data warehouse da plataforma SQL warehouses e SQL warehouses sem servidor.

    • Para aprendizado de máquina, o Mosaic AI Model Serving é uma funcionalidade de serviço de modelo de nível empresarial escalonável, em tempo real, hospedada no plano de controle do Databricks. Mosaic AI Gateway é a solução do Databricks para governar e monitorar o acesso a modelos de IA generativos com suporte e seus endpoints de serviço de modelo associados.

    • Bancos de dados operacionais:

      • O Lakebase é um banco de dados OLTP (processamento de transações online) baseado no Postgres e totalmente integrado à Plataforma de Inteligência de Dados do Databricks. Isso permite que você crie bancos de dados OLTP no Databricks e integre workloads OLTP ao Lakehouse.
      • Sistemas externos, como bancos de dados operacionais, podem ser usados para armazenar e fornecer produtos de dados finais para aplicativos de usuário.
  • Collaboration:

    • Os parceiros de negócios obtêm acesso seguro aos dados necessários por meio do Compartilhamento Delta.

    • Com base no Compartilhamento Delta, o Databricks Marketplace é um fórum aberto para troca de produtos de dados.

    • As Salas Limpas são ambientes seguros e de proteção de privacidade em que vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.

  • Analysis

    • Os aplicativos de negócios finais estão nesta swimlane. Exemplos incluem clientes personalizados, como aplicativos de IA conectados ao Mosaic AI Model Serving para inferência em tempo real ou aplicativos que acessam dados enviados por push do lakehouse para um banco de dados operacional.

    • Para casos de uso de BI, os analistas normalmente usam ferramentas de BI para acessar o data warehouse. Os desenvolvedores de SQL também podem usar o Editor de SQL do Databricks (não mostrado no diagrama) para consultas e painéis.

    • A Plataforma de Inteligência de Dados também oferece painéis para criar visualizações de dados e compartilhar insights.

  • Integrate

    • Serviços externos de IA, como OpenAI, LangChain ou do HuggingFace podem ser usados diretamente de dentro da Plataforma de Inteligência do Databricks.

    • Os orquestradores externos podem usar a abrangente API REST ou conectores dedicados para ferramentas de orquestração externas, como o Apache Airflow .

    • O Catálogo do Unity é usado em todos os dados e governança de IA na plataforma Inteligência do Databricks e pode integrar outros bancos de dados à governança pela Federação do Lakehouse.

      Além disso, o Catálogo do Unity pode ser integrado a outros catálogos empresariais, por exemplo, o Purview. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento que dão suporte a todas as cargas de trabalho:

  • Governança de dados e IA

    O sistema central de governança de dados e IA na Plataforma de Inteligência de Dados do Databricks é o Catálogo do Unity. O Catálogo do Unity fornece um único local para gerenciar políticas de acesso a dados que se aplicam a todos os workspaces e dão suporte a todos os ativos criados ou usados no lakehouse, como tabelas, volumes, recursos (repositório de recursos) e modelos (registro de modelo). O Catálogo do Unity também pode ser usado para capturar a linhagem de dados de runtime entre consultas executadas no Databricks.

    O Monitoramento de Qualidade de Dados do Databricks permite monitorar a qualidade dos dados de todas as tabelas em sua conta. Ele detecta anomalias em todas as tabelas e fornece um perfil de dados completo para cada tabela.

    Para observabilidade, as tabelas do sistema são um repositório analítico hospedado pelo Databricks dos dados operacionais da sua conta. As tabelas do sistema podem ser usadas para observabilidade histórica em sua conta.

  • Mecanismo de inteligência de dados

    A Plataforma de Inteligência de Dados da Databricks permite que toda a sua organização use dados e IA, combinando IA generativa com os benefícios de unificação de um lakehouse para entender a semântica exclusiva de seus dados. Consulte os recursos assistenciais de IA do Databricks.

    O Assistente do Databricks está disponível em blocos de anotações do Databricks, no editor do SQL, no editor de arquivos e em outros lugares como um assistente de IA com reconhecimento de contexto para os usuários.

  • Automação & Orquestração

    Lakeflow Jobs orquestram pipelines de processamento de dados, aprendizado de máquina e análises na Plataforma Databricks de Inteligência de Dados. Os Pipelines Declarativos do Lakeflow Spark permitem criar pipelines ETL confiáveis e mantêveis com sintaxe declarativa. A plataforma também dá suporte ao CI/CD e ao MLOps

Casos de uso de alto nível para a Plataforma de Inteligência de Dados no Azure

Ingestão integrada de aplicativos e bancos de dados SaaS com o Lakeflow Connect

Ingestão com o LFC no Azure Databricks.

Download: arquitetura de referência do Lakeflow Connect para o Azure Databricks.

O Databricks Lakeflow Connect oferece conectores internos para ingestão de aplicativos empresariais e bancos de dados. O pipeline de ingestão resultante é regido pelo Unity Catalog e é alimentado por computação sem servidor e Pipelines Declarativos do Lakeflow Spark.

O Lakeflow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalonável e mais econômica, enquanto seus dados permanecem frescos para consumo downstream.

Ingestão em lote e ETL

Arquitetura de referência para ETL em lote no Azure Databricks.

Download: Arquitetura de referência de ETL em lote para Azure Databricks

As ferramentas de ingestão usam adaptadores específicos da origem para lerem dados da origem e armazená-los no armazenamento em nuvem, no qual o Carregador Automático pode lê-los ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas ao lakehouse do Databricks). Para carregar os dados, o ETL do Databricks e o mecanismo de processamento executam as consultas por meio de Pipelines. Orquestre trabalhos únicos ou multitarefas usando Trabalhos do Lakeflow e faça a governança deles com o Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a golden tables específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um RDBMS ou um armazenamento de valores-chave, no final do pipeline de ETL.

Streaming e CDA (captura de dados de alterações)

Arquitetura de streaming estruturada do Spark no Azure Databricks.

Download: Arquitetura de streaming estruturada do Spark para o Azure Databricks

O mecanismo ETL do Databricks usa o Streaming Estruturado do Spark para ler de filas de eventos, como Apache Kafka ou Hub de Eventos do Azure. As etapas downstream seguem a abordagem do caso de uso do Lote acima.

Captura de dados de alteração (CDC) em tempo real normalmente armazena os eventos extraídos em uma fila de eventos. Daí em diante, o caso de uso segue o caso de uso de streaming.

Se o CDC for feito em lote, com os registros extraídos armazenados primeiro no armazenamento em nuvem, o Autoloader do Databricks poderá lê-los e o caso de uso seguirá o modelo de ETL em lote.

Machine learning e IA (tradicional)

Arquitetura de referência de IA e aprendizado de máquina para o Azure Databricks.

Download: Arquitetura de referência de IA e machine learning para o Azure Databricks

Para aprendizado de máquina, a Plataforma de Inteligência de Dados do Databricks fornece a IA do Mosaico, que vem com bibliotecas de aprendizado profundo e máquina de última geração. Ele fornece recursos como o Repositório de Recursos e o Registro de Modelos (ambos integrados ao Catálogo do Unity), recursos de baixo código com AutoML e integração do MLflow ao ciclo de vida da ciência de dados.

O Catálogo do Unity rege todos os ativos relacionados à ciência de dados (tabelas, recursos e modelos) e os cientistas de dados podem usar o Lakeflow Jobs para orquestrar seus trabalhos.

Para implantar modelos de maneira escalonável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelo.

Aplicativos do Agente de IA (IA generativa)

Arquitetura de referência de aplicativo de IA generativa para Azure Databricks.

Download: arquitetura de referência de aplicativo de IA generativa para o Azure Databricks

Para implantar modelos de maneira escalonável e de nível empresarial, use os recursos de MLOps para publicar os modelos no serviço de modelo.

Análise de BI e SQL

Arquitetura de referência de análise de BI e SQL para o Azure Databricks.

Download: arquitetura de referência de análise de BI e SQL para o Azure Databricks

Para casos de uso de BI, os analistas de negócios podem usar dashboards, o editor de SQL do Databricks ou ferramentas de BI , como o Tableau ou o Power BI. Em todos os casos, o mecanismo é o Databricks SQL (sem servidor ou sem servidor), e o Catálogo do Unity fornece descoberta de dados, exploração e controle de acesso.

Aplicativos empresariais

Soluções de Negócios para Databricks no Azure Databricks.

Download: Aplicativos Empresariais do Databricks para o Azure

Os Aplicativos do Databricks permitem que os desenvolvedores criem e implantem dados seguros e aplicativos de IA diretamente na plataforma do Databricks, o que elimina a necessidade de infraestrutura separada. Os aplicativos são hospedados na plataforma sem servidor do Databricks e integram-se aos principais serviços de plataforma. Use Lakebase se o aplicativo precisar de dados OLTP que foram sincronizados do Lakehouse.

Federação lakehouse

Arquitetura de referência de federação do Lakehouse para o Azure Databricks.

Download: arquitetura de referência da Federação do Lakehouse para o Azure Databricks

Lakehouse Federation permite que bancos de dados SQL externos (como MySQL, Postgres, SQL Server ou Azure Synapse) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de usar a ETL nos dados para o armazenamento de objetos primeiro. O catálogo de origem externa é mapeado no Unity Catalog e o controle de acesso detalhado pode ser aplicado ao acesso através da plataforma Databricks.

Federação de catálogo

Arquitetura de referência de federação de catálogo para o Azure Databricks.

Download: Arquitetura de referência de federação de catálogo para o Azure Databricks

A federação do catálogo permite que metastores externos do Hive (como MySQL, Postgres, SQL Server ou Azure Synapse) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem se beneficiar disso sem a necessidade de usar a ETL nos dados para o armazenamento de objetos primeiro. O catálogo de origem externa é adicionado ao Catálogo do Unity, no qual o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Compartilhar dados com ferramentas de terceiros

Arquitetura de referência de compartilhamento de dados corporativos para o Azure Databricks.

Download: Arquitetura de referência para compartilhar dados com ferramentas de terceiros no Azure Databricks

O compartilhamento de dados de nível empresarial com terceiros é fornecido pelo Compartilhamento Delta. Ele permite o acesso direto aos dados no repositório de objetos protegido pelo Catálogo do Unity. Essa funcionalidade também é usada no Databricks Marketplace, um fórum aberto para troca de produtos de dados.

Consumir dados compartilhados do Databricks

Consumir dados compartilhados do Databricks para o Azure Databricks.

Download: consumir dados compartilhados da arquitetura de referência do Databricks no Azure Databricks

O protocolo Databricks-to-Databricks do Compartilhamento Delta permite que os usuários compartilhem dados de forma segura com qualquer usuário do Databricks, independentemente da conta ou do host de nuvem, desde que esse usuário tenha acesso a um workspace habilitado para o Unity Catalog.