Criar uma arquitetura moderna de plataforma de dados para SMBs usando o Microsoft Fabric e o Azure Databricks
ideias da Solução
Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essas diretrizes para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para criar uma solução bem arquiteta que esteja alinhada com os requisitos específicos da carga de trabalho.
Este artigo descreve como as pequenas e médias empresas (SMBs) podem criar uma arquitetura moderna de plataforma de dados combinando investimentos existentes no Azure Databricks com uma plataforma de dados SaaS (software como serviço) totalmente gerenciada, como o Microsoft Fabric. As plataformas de dados SaaS são soluções de análise de dados de ponta a ponta que se integram facilmente a ferramentas como o Azure Machine Learning, os Serviços de IA do Azure, o Power Platform, o Microsoft Dynamics 365 e outras tecnologias da Microsoft.
Arquitetura simplificada
Baixe um arquivo do Visio dessa arquitetura.
A interoperabilidade entre o Azure Databricks e o Fabric fornece uma solução robusta que minimiza a fragmentação de dados e, ao mesmo tempo, aprimora as funcionalidades analíticas.
O Fabric fornece um data lake aberto e controlado, chamado OneLake, como o armazenamento de SaaS subjacente. O OneLake usa o formato Delta Parquet, que é o mesmo formato usado pelo Azure Databricks. Para acessar seus dados do Azure Databricks do OneLake, você pode usar atalhos do OneLake no Fabric ou espelhar o catálogo do Azure Databricks Unity no Fabric. Essa integração permite que você aumente seus sistemas de análise do Azure Databricks com IA geradora sobre o OneLake.
Você também pode usar o modo direct lake no Power BI em seus dados do Azure Databricks no OneLake. O modo de lago direto simplifica a camada de serviço e melhora o desempenho do relatório. O OneLake dá suporte a APIs para o Azure Data Lake Storage e armazena todos os dados tabulares no formato Delta Parquet.
Como resultado, os notebooks do Azure Databricks podem usar pontos de extremidade do OneLake para acessar os dados armazenados. A experiência é a mesma que acessar os dados por meio de um armazém do Fabric. Essa integração permite que você use o Fabric ou o Azure Databricks sem remodelar seus dados.
Arquitetura
Baixe um arquivo do Visio dessa arquitetura.
Fluxo
Azure Data Factory: usar pipelines existentes do Azure Data Factory para ingerir dados estruturados e não estruturados de sistemas de origem e aterrissá-los no data lake existente.
Microsoft Dynamics 365: Você pode usar fontes de dados do Microsoft Dynamics 365 para criar painéis de BI centralizados em conjuntos de dados aumentados usando o Link do Azure Synapse ou o Microsoft Fabric Link. Traga os dados fundidos e processados de volta para o Microsoft Dynamics 365 e o Power BI para análise adicional.
Ingestão de dados de streaming: Dados de streaming podem ser ingeridos por meio dos Hubs de Eventos do Azure ou hubs IoT do Azure, dependendo dos protocolos usados para enviar essas mensagens.
Caminho frio: Você pode trazer os dados de streaming para o data lake centralizado para análise, armazenamento e relatórios adicionais usando o Azure Databricks. Esses dados podem então ser unificados com outras fontes de dados para análise em lote.
Caminho frequente: Dados de streaming podem ser analisados em dashboards em tempo real e em tempo real podem ser criados por meio do Microsoft Fabric Real-Time Intelligence.
Azure Databricks: Os Notebooks existentes do Azure Databricks podem ser usados para executar a limpeza de dados, a unificação e as análises normalmente. Considere usar a arquitetura de medalhão, como:
Bronze, que contém dados brutos.
Prata, que contém dados limpos e filtrados.
Ouro, que armazena dados agregados que são úteis para análise de negócios.
Dados dourados ou um data warehouse: Para os dados dourados ou um data warehouse, continue a usar o SQL do Azure Databricks ou crie um espelhamento do Catálogo do Unity do Azure Databricks no Fabric. Crie facilmente painéis com base na análise sem servidor dos dados no Fabric Lakehouses sem qualquer configuração necessária usando os modelos semânticos do Power BI que são criados automaticamente para todas as lakehouses do Fabric. O Fabric Data Warehouse também poderá ser usado como a camada dourada se os requisitos analíticos exigirem computação mais rápida.
As ferramentas usadas para governança, colaboração, segurança, desempenho e monitoramento de custos incluem:
Descobrir e governar
O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.
O Catálogo do Unity fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Azure Databricks.
O Azure DevOps fornece integração contínua e implantação contínua e outros recursos de controle de versão integrados.
O Azure Key Vault gerencia segredos, chaves e certificados.
A ID do Microsoft Entra fornece logon único para usuários do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com a ID do Microsoft Entra para:
Criar novos usuários.
Atribuir um nível de acesso a cada usuário.
Remova os usuários e negue-os ao acesso.
O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Esse serviço maximiza o desempenho e a confiabilidade identificando proativamente os problemas.
O Gerenciamento de Custos da Microsoft fornece serviços de governança financeira para cargas de trabalho do Azure.
Componentes
Data Lake Storage é um serviço de armazenamento de dados escalonável projetado para dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage serve como a infraestrutura subjacente para o Delta Lake. É a camada de armazenamento principal para dados brutos e processados, que permite a ingestão, armazenamento e recuperação de dados eficientes para cargas de trabalho de análise e machine learning.
a do Azure Data Factory é um serviço de integração de dados baseado em nuvem que orquestra e automatiza a movimentação e a transformação de dados. Nessa arquitetura, o Azure Data Factory cria, agenda e orquestra pipelines de dados que movem e transformam dados em vários armazenamentos de dados e serviços.
Os Hubs de Eventos do Azure são um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo de qualquer fonte. Nessa arquitetura, os Hubs de Eventos capturam e transmitem grandes volumes de dados de várias fontes para habilitar a análise em tempo real e o processamento controlado por eventos.
O Hub IoT do Azure é um serviço gerenciado que melhora a segurança e a comunicação confiável entre dispositivos IoT (Internet das Coisas) e a nuvem. Nessa arquitetura, o Hub IoT facilita a ingestão, o processamento e a análise de dados de telemetria de dispositivos IoT para fornecer insights em tempo real e habilitar o monitoramento remoto.
O Dataverse é uma plataforma de dados escalonável que as organizações podem usar para ajudar a armazenar e gerenciar dados que os aplicativos empresariais usam com segurança. Nessa arquitetura, ela serve como uma fonte de dados que se alimenta do pipeline de análise por meio do Link do Azure Synapse ou do Microsoft Fabric Link.
O Link do Azure Synapse é um recurso de integração de dados que conecta aplicativos dynamics com o Azure Synapse Analytics ou o Data Lake Storage. Nessa arquitetura, ele copia dados quase em tempo real do Dataverse para o Data Lake Storage.
O Microsoft Fabric Link é um recurso de integração de dados que conecta aplicativos dynamics ao Fabric. Nessa arquitetura, ele replica dados do Dataverse para o Fabric quase em tempo real.
O Azure Databricks é uma plataforma de análise baseada no Apache Spark para processamento de Big Data, machine learning e engenharia de dados. Nessa arquitetura, ela executa a limpeza de dados, a transformação e a análise usando camadas de arquitetura de medalhão.
O Delta Lake é uma camada de armazenamento de software livre que traz transações acid (atomicidade, consistência, isolamento e durabilidade) para cargas de trabalho do Apache Spark e big data. Nessa arquitetura, o Delta Lake aprimora a confiabilidade e o desempenho dos dados dentro do data lake.
O SQL do Azure Databricks é um serviço de análise baseado em SQL que permite que os usuários executem consultas SQL em dados armazenados no Azure Databricks. Nessa arquitetura, o SQL do Azure Databricks fornece uma interface SQL poderosa para consultar e analisar dados, o que permite análise interativa.
A IA e o machine learning abrangem uma variedade de tecnologias e serviços que permitem o desenvolvimento, a implantação e o gerenciamento de modelos de machine learning. Nessa arquitetura, os serviços de IA e Machine Learning criam, treinam e implantam modelos preditivos. Essa funcionalidade permite a tomada de decisões controlada por dados.
do Catálogo do Unity é uma solução de governança de dados que fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados em workspaces do Databricks. Nessa arquitetura, o Catálogo do Unity ajuda a garantir a governança e a segurança de dados fornecendo controles de acesso refinados, auditoria e acompanhamento de linhagem de dados.
de arquitetura do Medallion Lakehouse é um padrão de arquitetura de dados que organiza dados em camadas bronze, prata e ouro para processamento e análise de dados eficientes. Nessa arquitetura, ele estrutura fluxos de trabalho de processamento de dados usando o Data Lake Storage, o Delta Lake e o Azure Databricks para dar suporte a análises escalonáveis.
O Fabric é uma plataforma de dados abrangente que integra vários serviços de dados e ferramentas para fornecer uma experiência perfeita de gerenciamento e análise de dados. Nessa arquitetura, o Fabric conecta e integra dados de várias fontes, o que permite análises e insights de dados abrangentes em toda a organização.
Real-Time Intelligence é um recurso de processamento de dados que permite que as organizações ingeram, processem e analisem dados em tempo real. Real-Time Intelligence processa dados de streaming de várias fontes. Nessa arquitetura, ela fornece insights em tempo real e habilita ações automatizadas com base em padrões de dados.
Os atalhos do OneLake criam um vínculo in-loco entre o OneLake e outras fontes de dados. Nessa arquitetura, eles simplificam o acesso e o gerenciamento de dados e fornecem uma exibição unificada dos dados em toda a organização.
do Power BI é um serviço de análise de negócios que fornece visualizações interativas e recursos de business intelligence. Nessa arquitetura, o Power BI visualiza dados do Fabric e do Databricks usando o modo Direct Lake para melhorar o desempenho.
Microsoft Purview é um serviço unificado de governança de dados que ajuda as organizações a gerenciar e governar seus dados em várias fontes. Nessa arquitetura, ele cataloga dados, rastreia a linhagem e impõe a conformidade em todo o conjunto de dados. Você pode integrar o Catálogo do Unity ao Purview para acessar metadados do Catálogo do Unity do Purview.
o Microsoft Entra ID é uma solução de gerenciamento de acesso e identidade baseada em nuvem que ajuda a garantir entradas seguras e acesso a recursos como Microsoft 365, Azure e outros aplicativos SaaS. Nessa arquitetura, a ID do Microsoft Entra fornece gerenciamento seguro de identidade e acesso para recursos do Azure. Esse recurso permite entradas seguras, gerencia identidades de usuário e ajuda a garantir o acesso autorizado a dados e recursos.
o Microsoft Cost Management é um conjunto de ferramentas FinOps que as organizações podem usar para analisar, monitorar e otimizar os custos da Nuvem da Microsoft. Nessa arquitetura, essas ferramentas fornecem governança financeira sobre os recursos do Azure.
key vault é um serviço de nuvem que armazena e gerencia segredos, como chaves de API, senhas, certificados e chaves criptográficas. Nessa arquitetura, o Azure Databricks pode recuperar segredos do Key Vault para autenticar e acessar o Data Lake Storage, o que garante uma integração segura.
O Azure Monitor é um serviço de monitoramento que fornece observabilidade de pilha completa para aplicativos, infraestrutura e redes. O Azure Monitor permite que os usuários coletem, analisem e atuem em dados de telemetria de seus ambientes locais e do Azure. Nessa arquitetura, o Azure Monitor garante o desempenho e a confiabilidade identificando proativamente os problemas.
a do Azure DevOps é um conjunto de ferramentas de desenvolvimento que dão suporte a uma cultura colaborativa e processos simplificados. Essas ferramentas permitem que desenvolvedores, gerentes de projetos e colaboradores desenvolvam software com mais eficiência. O Azure DevOps fornece recursos integrados, como Azure Boards, Azure Repos, Azure Pipelines, Planos de Teste do Azure e Artefatos do Azure. Você pode acessar esses recursos por meio de um navegador da Web ou de um cliente de ambiente de desenvolvimento integrado. Nessa arquitetura, o Azure DevOps dá suporte à implantação automatizada e ao controle de versão para pipelines de dados e notebooks.
o GitHub é um serviço de hospedagem de repositório Git baseado em nuvem que simplifica o controle de versão e a colaboração para desenvolvedores. Indivíduos e equipes podem armazenar e gerenciar seu código, acompanhar alterações e colaborar em projetos. Nessa arquitetura, o GitHub integra-se ao Azure DevOps para impor a automação e a conformidade em fluxos de trabalho de desenvolvimento e pipelines de implantação para o Azure Data Factory, o Azure Databricks e o Fabric.
Alternativas
Para criar um ambiente independente do Fabric, consulte Greenfield lakehouse on Fabric.
Para migrar um ambiente de análise de SQL local para o Fabric, consulte data warehouses modernos para pequenas e médias empresas.
Alternativas de serviço dentro dessa arquitetura
de ingestão do Lote
- Opcionalmente, use do Fabric Data Pipeline para integração de dados em vez de pipelines do Data Factory. A escolha depende de vários fatores. Para obter mais informações, consulte Obtendo do Azure Data Factory para o Data Factory no Microsoft Fabric.
de ingestão do Microsoft Dynamics 365
Se você usar o Azure Data Lake como armazenamento de data lake e quiser ingerir dados do Dataverse, use Link do Azure Synapse para Dataverse com o Azure Data Lake. Para o Dynamics Finance and Operations, consulte Link do Azure Synapse do FnO para Dataverse.
Se você usar o Microsoft Fabric Lakehouse como armazenamento de data lake, consulte Fabric Link.
de ingestão de dados de streaming
- A decisão entre o Azure IoT e os Hubs de Eventos depende da origem dos dados de streaming, se a clonagem e a comunicação bidirecional com os dispositivos de relatório são necessárias e os protocolos necessários. Para obter mais informações, consulte Comparar Hub IoT e Hubs de Eventos.
Lakehouse
- O Microsoft Fabric Lakehouse é uma plataforma unificada de arquitetura de dados para gerenciar e analisar dados estruturados e não estruturados em um formato aberto que usa principalmente arquivos Delta Parquet. Ele dá suporte a dois tipos de armazenamento. Esses tipos de armazenamento são tabelas gerenciadas como CSV, Parquet ou Delta e arquivos não gerenciados. As tabelas gerenciadas são reconhecidas automaticamente. Arquivos não gerenciados exigem a criação explícita da tabela. A plataforma habilita transformações de dados por meio de pontos de extremidade Spark ou SQL e se integra perfeitamente a outros componentes do Fabric. Essa integração perfeita permite o compartilhamento de dados sem duplicação. Esse conceito se alinha à arquitetura de medalhão comum usada em cargas de trabalho analíticas. Para obter mais informações, consulte Lakehouse in Fabric.
de análise em tempo real
do Azure Databricks
- Se você tiver uma solução existente do Azure Databricks, convém continuar a usar o Streaming Estruturado para análise em tempo real. Para obter mais informações, consulte Streaming no Databricks.
Tecido
Se você usou outros serviços do Azure para análise em tempo real no passado ou não tiver nenhuma solução de análise em tempo real existente, consulte Fabric Real-time Intelligence versus Azure Streaming Solutions.
O streaming estruturado do Fabric usa o Streaming Estruturado do Spark para processar e ingerir fluxos de dados ao vivo como tabelas acrescentadas continuamente. O streaming estruturado dá suporte a várias fontes de arquivo, como CSV, JSON, ORC, Parquet e serviços de mensagens, como Kafka e Hubs de Eventos. Essa abordagem garante o processamento de fluxo escalonável e tolerante a falhas, o que otimiza ambientes de produção de alta taxa de transferência. Para obter mais informações, consulte Streaming Estruturado do Fabric Spark.
de engenharia de dados do
- Use o Fabric ou o Azure Databricks para escrever notebooks Spark. Para obter mais informações, consulte Como usar blocos de anotações do Fabric. Para saber como os notebooks do Fabric se comparam com o que o Azure Synapse Spark fornece, consulte Comparar Engenharia de Dados do Fabric e o Spark do Azure Synapse. Para obter mais informações sobre notebooks do Azure Databricks, consulte Introdução aos notebooks do Databricks.
data warehouse ou de camada de ouro
- Você pode usar o Fabric ou o Azure Databricks para criar um warehouse baseado em SQL ou uma camada de ouro. Para obter um guia de decisão sobre como escolher uma solução de armazenamento de camada de ouro ou data warehouse no Fabric, consulte o guia de decisão do Fabric: escolha um armazenamento de dados. Para obter mais informações sobre tipos de sql warehouse no Azure Databricks, consulte tipos de sql warehouse.
de ciência de dados do
Use o Fabric ou o Azure Databricks para recursos de ciência de dados. Para obter mais informações sobre a oferta de Ciência de Dados do Fabric, consulte o que é Ciência de Dados no Fabric?. Para obter mais informações sobre a oferta do Azure Databricks, consulte IA e machine learning no Databricks.
A Ciência de Dados do Fabric difere do Machine Learning. O Machine Learning fornece uma solução abrangente para gerenciar fluxos de trabalho e implantar modelos de machine learning. A Ciência de Dados do Fabric é adaptada a um cenário de análise e relatório.
do Power BI
O Azure Databricks, integrado ao Power BI, permite o processamento e a visualização de dados contínuos. Para obter mais informações, consulte Conectar o Power BI ao Azure Databricks.
Ao espelhar o Catálogo do Unity do Azure Databricks no Fabric, você pode acessar dados gerenciados pelo Catálogo do Unity do Azure Databricks diretamente da carga de trabalho do Fabric. Para obter mais informações, consulte do Catálogo do Unity do Azure Databricks.
Crie um atalho do Data Lake Storage com o Delta Lake em um Fabric One Lake. Para obter mais informações, consulte Integrar o Catálogo do Databricks Unity ao OneLake. Você pode consultar esses dados do Power BI usando o modo Direct Lake sem copiar dados para o Serviço do Power BI. Para obter mais informações, consulte direct lake mode.
Detalhes do cenário
Pequenas e médias empresas que têm um ambiente existente do Azure Databricks e, opcionalmente, uma arquitetura lakehouse, podem se beneficiar desse padrão. Atualmente, eles usam uma ferramenta de extração, transformação e carregamento do Azure, como o Azure Data Factory, e servem relatórios no Power BI. No entanto, eles também podem ter várias fontes de dados que usam diferentes formatos de dados proprietários no mesmo data lake, o que leva à duplicação de dados e a preocupações com o bloqueio do fornecedor. Essa situação pode complicar o gerenciamento de dados e aumentar a dependência de fornecedores específicos. Eles também podem exigir up-torelatórios de data e quase em tempo real para a tomada de decisões e estar interessados em adotar ferramentas de IA em seu ambiente.
O Fabric é uma fundação SaaS aberta, unificada e governada que você pode usar para:
Use o OneLake para armazenar, gerenciar e analisar dados em um único local sem preocupações com o bloqueio do fornecedor.
Inove mais rapidamente com as integrações aos aplicativos do Microsoft 365.
Obtenha insights rápidos com os benefícios do modo de lago direto do Power BI.
Beneficie-se dos Copilots em todas as experiências do Fabric.
Acelere a análise desenvolvendo modelos de IA em uma única base.
Mantenha os dados em vigor sem movimentação, o que reduz o tempo que os cientistas de dados precisam para fornecer valor.
Contribuintes
Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos colaboradores a seguir.
Autores principais:
- Bonita Rui | Arquiteto de Soluções na Nuvem
- Naren Jogendran | Arquiteto de Soluções na Nuvem
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
- Roteiros de aprendizagem para engenheiros de dados
- Malha – Introdução ao caminho mslearn
- Fabric – módulos DO MSLearn
- criar uma conta de armazenamento para o Data Lake Storage
- Início Rápido dos Hubs de Eventos – Criar um hub de eventos usando o portal do Azure
- Qual é a arquitetura medalhão lakehouse?
- O que é uma casa de lago em Fabric?