Partilhar via


Crie uma arquitetura de plataforma de dados moderna para PMEs usando o Microsoft Fabric e o Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.

Este artigo descreve como as pequenas e médias empresas (PMEs) podem criar uma arquitetura de plataforma de dados moderna combinando investimentos existentes no Azure Databricks com uma plataforma de dados de software como serviço (SaaS) totalmente gerenciada, como o Microsoft Fabric. As plataformas de dados SaaS são soluções de análise de dados de ponta a ponta que se integram facilmente com ferramentas como Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 e outras tecnologias da Microsoft.

Arquitetura simplificada

Diagrama que mostra uma arquitetura de plataforma de dados moderna e simplificada para pequenas e médias empresas.

Baixe um arquivo Visio dessa arquitetura.

A interoperabilidade entre o Azure Databricks e o Fabric fornece uma solução robusta que minimiza a fragmentação de dados enquanto aprimora os recursos analíticos.

O Fabric fornece um data lake aberto e controlado, chamado OneLake, como o armazenamento SaaS subjacente. O OneLake usa o formato Delta Parquet, que é o mesmo formato que o Azure Databricks usa. Para acessar seus dados do Azure Databricks do OneLake, você pode usar de atalhos do OneLake na Malha ou espelhar do Catálogo do Azure Databricks Unity na Malha. Essa integração permite que você aumente seus sistemas de análise do Azure Databricks com IA generativa sobre o OneLake.

Você também pode usar o modo de lago direto no Power BI em seus dados do Azure Databricks no OneLake. O modo de lago direto simplifica a camada de serviço e melhora o desempenho do relatório. O OneLake dá suporte a APIs para o Armazenamento do Azure Data Lake e armazena todos os dados tabulares no formato Delta Parquet.

Como resultado, os blocos de anotações do Azure Databricks podem usar pontos de extremidade OneLake para acessar os dados armazenados. A experiência é a mesma que acessar os dados por meio de um armazém do Fabric. Essa integração permite que você use o Fabric ou o Azure Databricks sem remodelar seus dados.

Arquitetura

Diagrama que mostra uma arquitetura de plataforma de dados moderna e completa para pequenas e médias empresas.

Baixe um arquivo Visio dessa arquitetura.

Fluxo de dados

  1. Azure Data Factory: Use pipelines existentes do Azure Data Factory para ingerir dados estruturados e não estruturados de sistemas de origem e colocá-los no data lake existente.

  2. Microsoft Dynamics 365: Você pode usar fontes de dados do Microsoft Dynamics 365 para criar painéis de BI centralizados em conjuntos de dados aumentados usando o Azure Synapse Link ou o Microsoft Fabric Link. Traga os dados fundidos e processados de volta para o Microsoft Dynamics 365 e o Power BI para análise adicional.

  3. Ingestão de dados de streaming: Os dados de streaming podem ser ingeridos por meio dos Hubs de Eventos do Azure ou dos Hubs IoT do Azure, dependendo dos protocolos usados para enviar essas mensagens.

  4. Caminho frio: Você pode trazer os dados de streaming para o data lake centralizado para análise, armazenamento e relatórios adicionais usando o Azure Databricks. Esses dados podem ser unificados com outras fontes de dados para análise em lote.

  5. Hot path: Os dados de streaming podem ser analisados em tempo real e painéis em tempo real podem ser criados por meio do Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: Os Blocos de Anotações do Azure Databricks existentes podem ser usados para executar limpeza, unificação e análises de dados como de costume. Considere o uso da arquitetura medalhão, como:

    • Bronze, que contém dados brutos.

    • Prata, que contém dados limpos e filtrados.

    • Gold, que armazena dados agregados que são úteis para análise de negócios.

  7. Dados dourados ou um armazém de dados: Para os dados dourados ou um armazém de dados, continue a utilizar o Azure Databricks SQL ou crie um espelhamento do Catálogo Unity do Azure Databricks no Fabric. Crie facilmente painéis com base na análise sem servidor de dados em lakehouses de malha sem qualquer configuração necessária usando os modelos semânticos do Power BI que são criados automaticamente para todas as lakehouses de malha. O Fabric Data Warehouse também pode ser usado como a camada dourada se os requisitos analíticos exigirem uma computação mais rápida.

As ferramentas usadas para governança, colaboração, segurança, desempenho e monitoramento de custos incluem:

  • Descubra e governe

    • O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.

    • O Unity Catalog fornece recursos centralizados de controle de acesso, auditoria, linhagem e descoberta de dados nos espaços de trabalho do Azure Databricks.

  • O Azure DevOps fornece integração contínua e implantação contínua e outros recursos integrados de controle de versão.

  • O Azure Key Vault gerencia segredos, chaves e certificados.

  • O Microsoft Entra ID fornece logon único para usuários do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com o Microsoft Entra ID para:

    • Crie novos usuários.

    • Atribua a cada usuário um nível de acesso.

    • Remova os utilizadores e negue-lhes o acesso.

  • O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Este serviço maximiza o desempenho e a confiabilidade através da identificação proativa de problemas.

  • O Microsoft Cost Management fornece serviços de governança financeira para cargas de trabalho do Azure.

Componentes

  • Data Lake Storage é um serviço de armazenamento de dados escalável projetado para dados estruturados e não estruturados. Nessa arquitetura, o Data Lake Storage serve como a infraestrutura subjacente para o Delta Lake. É a principal camada de armazenamento para dados brutos e processados, o que permite a ingestão, o armazenamento e a recuperação eficientes de dados para cargas de trabalho de análise e aprendizado de máquina.

  • Azure Data Factory é um serviço de integração de dados baseado na nuvem que orquestra e automatiza a movimentação e a transformação de dados. Nessa arquitetura, o Azure Data Factory cria, agenda e orquestra pipelines de dados que movem e transformam dados em vários armazenamentos de dados e serviços.

  • Os Hubs de Eventos do Azure são um serviço de ingestão de dados em tempo real que pode processar milhões de eventos por segundo de qualquer origem. Nessa arquitetura, os Hubs de Eventos capturam e transmitem grandes volumes de dados de várias fontes para permitir análises em tempo real e processamento orientado a eventos.

  • O Hub IoT do Azure é um serviço gerenciado que melhora a segurança e a comunicação confiável entre dispositivos de Internet das Coisas (IoT) e a nuvem. Nessa arquitetura, o Hub IoT facilita a ingestão, o processamento e a análise de dados de telemetria de dispositivos IoT para fornecer insights em tempo real e permitir o monitoramento remoto.

  • O Dataverse é uma plataforma de dados escalável que as organizações podem usar para ajudar a armazenar e gerenciar com segurança os dados que os aplicativos de negócios usam. Nessa arquitetura, ele serve como uma fonte de dados que alimenta o pipeline de análise por meio do Azure Synapse Link ou do Microsoft Fabric Link.

    • O Azure Synapse Link é um recurso de integração de dados que conecta aplicativos Dynamics com o Azure Synapse Analytics ou o Data Lake Storage. Nessa arquitetura, ele copia dados quase em tempo real do Dataverse para o Data Lake Storage.

    • O Microsoft Fabric Link é um recurso de integração de dados que conecta aplicativos Dynamics ao Fabric. Nessa arquitetura, ele replica dados do Dataverse para o Fabric quase em tempo real.

  • O Azure Databricks é uma plataforma de análise baseada no Apache Spark para processamento de big data, aprendizagem automática e engenharia de dados. Nessa arquitetura, ele executa limpeza, transformação e análise de dados usando camadas de arquitetura medalhão.

    • O Delta Lake é uma camada de armazenamento de código aberto que traz transações de atomicidade, consistência, isolamento e durabilidade (ACID) para cargas de trabalho do Apache Spark e de big data. Nessa arquitetura, o Delta Lake melhora a confiabilidade e o desempenho dos dados dentro do data lake.

    • O Azure Databricks SQL é um serviço de análise baseado em SQL que permite aos usuários executar consultas SQL em dados armazenados no Azure Databricks. Nessa arquitetura, o Azure Databricks SQL fornece uma interface SQL poderosa para consultar e analisar dados, o que permite análises interativas.

    • A IA e o aprendizado de máquina abrangem uma gama de tecnologias e serviços que permitem o desenvolvimento, a implantação e o gerenciamento de modelos de aprendizado de máquina. Nessa arquitetura, os serviços de IA e Machine Learning criam, treinam e implantam modelos preditivos. Esse recurso permite a tomada de decisões baseada em dados.

    • Unity Catalog é uma solução de governança de dados que fornece controle de acesso centralizado, auditoria, linhagem e recursos de descoberta de dados em espaços de trabalho Databricks. Nessa arquitetura, o Unity Catalog ajuda a garantir a governança e a segurança dos dados, fornecendo controles de acesso refinados, auditoria e rastreamento de linhagem de dados.

  • Medallion lakehouse architecture é um padrão de arquitetura de dados que organiza os dados em camadas de bronze, prata e ouro para processamento e análise de dados eficientes. Nessa arquitetura, ele estrutura fluxos de trabalho de processamento de dados usando o Data Lake Storage, o Delta Lake e o Azure Databricks para dar suporte a análises escaláveis.

  • O Fabric é uma plataforma de dados abrangente que integra vários serviços e ferramentas de dados para fornecer uma experiência perfeita de gerenciamento e análise de dados. Nessa arquitetura, o Fabric conecta e integra dados de várias fontes, o que permite análises de dados abrangentes e insights em toda a organização.

    • Real-Time Intelligence é um recurso de processamento de dados que permite às organizações ingerir, processar e analisar dados em tempo real. Real-Time Intelligence processa dados de streaming de várias fontes. Nessa arquitetura, ele fornece insights em tempo real e permite ações automatizadas com base em padrões de dados.

    • Os atalhos do OneLake criam um link in-loco entre o OneLake e outras fontes de dados. Nessa arquitetura, eles simplificam o acesso e o gerenciamento de dados e fornecem uma visão unificada dos dados em toda a organização.

  • Power BI é um serviço de análise de negócios que fornece visualizações interativas e recursos de business intelligence. Nessa arquitetura, o Power BI visualiza dados do Fabric e do Databricks usando o modo Direct Lake para melhorar o desempenho.

  • Microsoft Purview é um serviço unificado de governança de dados que ajuda as organizações a gerenciar e governar seus dados em várias fontes. Nessa arquitetura, ele cataloga dados, rastreia linhagens e impõe conformidade em todo o conjunto de dados. Você pode integrar o Unity Catalog ao Purview para acessar os metadados do Unity Catalog a partir do Purview.

  • Microsoft Entra ID é uma solução de gerenciamento de identidade e acesso baseada em nuvem que ajuda a garantir entradas seguras e acesso a recursos como Microsoft 365, Azure e outros aplicativos SaaS. Nessa arquitetura, o Microsoft Entra ID fornece gerenciamento seguro de identidade e acesso para recursos do Azure. Esse recurso permite entradas seguras, gerencia identidades de usuários e ajuda a garantir acesso autorizado a dados e recursos.

  • Microsoft Cost Management é um conjunto de ferramentas FinOps que as organizações podem usar para analisar, monitorar e otimizar os custos do Microsoft Cloud. Nessa arquitetura, essas ferramentas fornecem governança financeira sobre os recursos do Azure.

  • Key Vault é um serviço de nuvem que armazena e gerencia segredos, como chaves de API, senhas, certificados e chaves criptográficas. Nessa arquitetura, o Azure Databricks pode recuperar segredos do Cofre da Chave para autenticar e acessar o Armazenamento Data Lake, o que garante uma integração segura.

  • O Azure Monitor é um serviço de monitoramento que fornece observabilidade de pilha completa para aplicativos, infraestrutura e redes. O Azure Monitor permite que os usuários coletem, analisem e atuem em dados de telemetria de seus ambientes do Azure e locais. Nessa arquitetura, o Azure Monitor garante desempenho e confiabilidade identificando problemas proativamente.

  • de DevOps do Azure é um conjunto de ferramentas de desenvolvimento que dão suporte a uma cultura colaborativa e processos simplificados. Essas ferramentas permitem que desenvolvedores, gerentes de projeto e colaboradores desenvolvam software de forma mais eficiente. O Azure DevOps fornece recursos integrados, como Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans e Azure Artifacts. Você pode acessar esses recursos por meio de um navegador da Web ou de um cliente de ambiente de desenvolvimento integrado. Nessa arquitetura, o Azure DevOps dá suporte à implantação automatizada e ao controle de versão para pipelines de dados e notebooks.

  • GitHub é um serviço de hospedagem de repositório Git baseado em nuvem que simplifica o controle de versão e a colaboração para desenvolvedores. Indivíduos e equipes podem armazenar e gerenciar seus códigos, controlar alterações e colaborar em projetos. Nessa arquitetura, o GitHub se integra ao Azure DevOps para impor automação e conformidade em fluxos de trabalho de desenvolvimento e pipelines de implantação para o Azure Data Factory, Azure Databricks e Fabric.

Alternativas

Alternativas de serviço dentro desta arquitetura

  • Ingestão em lote

  • de ingestão do Microsoft Dynamics 365

  • Streaming de ingestão de dados

    • A decisão entre o Azure IoT e os Hubs de Eventos depende da origem dos dados de streaming, da necessidade de clonagem e comunicação bidirecional com os dispositivos de relatório e dos protocolos necessários. Para obter mais informações, consulte Comparar o Hub IoT e os Hubs de Eventos.
  • Casa do Lago

    • O Microsoft Fabric Lakehouse é uma plataforma unificada de arquitetura de dados para gerenciar e analisar dados estruturados e não estruturados em um formato aberto que usa principalmente arquivos Delta Parquet. Ele suporta dois tipos de armazenamento. Esses tipos de armazenamento são tabelas gerenciadas como CSV, Parquet ou Delta e arquivos não gerenciados. As tabelas gerenciadas são reconhecidas automaticamente. Arquivos não gerenciados exigem a criação explícita de tabelas. A plataforma permite transformações de dados por meio de endpoints Spark ou SQL e integra-se perfeitamente com outros componentes do Fabric. Essa integração perfeita permite o compartilhamento de dados sem duplicação. Esse conceito está alinhado com a arquitetura de medalhão comum que é usada em cargas de trabalho analíticas. Para obter mais informações, consulte Lakehouse in Fabric.
  • Análise em tempo real

    • Azure Databricks

      • Se você tiver uma solução existente do Azure Databricks, convém continuar a usar o Streaming Estruturado para análises em tempo real. Para obter mais informações, consulte Streaming no Databricks.
    • Tecido

      • Se você usou outros serviços do Azure para análise em tempo real no passado ou não tem nenhuma solução de análise em tempo real existente, consulte Fabric Real-time Intelligence versus Azure Streaming Solutions.

      • O streaming estruturado de malha usa o Spark Structured Streaming para processar e ingerir fluxos de dados ao vivo como tabelas anexadas continuamente. O streaming estruturado suporta várias fontes de arquivos, como CSV, JSON, ORC, Parquet, e serviços de mensagens como Kafka e Hubs de Eventos. Essa abordagem garante um processamento de fluxo escalável e tolerante a falhas, o que otimiza ambientes de produção de alto rendimento. Para obter mais informações, consulte Fabric Spark Structured Streaming.

  • Engenharia de dados

  • Data warehouse ou camada de ouro

    • Você pode usar o Fabric ou o Azure Databricks para criar um depósito baseado em SQL ou uma camada ouro. Para obter um guia de decisão sobre como escolher um armazém de dados ou uma solução de armazenamento de camada ouro no Fabric, consulte Guia de decisão do Fabric: escolha um armazenamento de dados. Para obter mais informações sobre tipos de SQL warehouse no Azure Databricks, consulte SQL warehouse types.
  • Ciência de dados

    • Use o Fabric ou o Azure Databricks para recursos de ciência de dados. Para obter mais informações sobre a oferta de Ciência de Dados de Malha, consulte O que é Ciência de Dados na Malha?. Para obter mais informações sobre a oferta do Azure Databricks, consulte IA e aprendizado de máquina no Databricks.

    • O Fabric Data Science difere do Machine Learning. O Machine Learning fornece uma solução abrangente para gerenciar fluxos de trabalho e implantar modelos de aprendizado de máquina. O Fabric Data Science é adaptado a um cenário de análise e emissão de relatórios.

  • Power BI

    • O Azure Databricks, integrado com o Power BI, permite processamento e visualização de dados contínuos. Para obter mais informações, consulte conectar o Power BI ao Azure Databricks.

    • Ao espelhar o Catálogo Unity do Azure Databricks na Malha, você pode acessar os dados gerenciados pelo Catálogo Unity do Azure Databricks diretamente da carga de trabalho do Fabric. Para obter mais informações, consulte Mirroring Azure Databricks Unity Catalog.

    • Crie um atalho do armazenamento Data Lake com Delta Lake para um Fabric One Lake. Para obter mais informações, consulte Integrar o Databricks Unity Catalog com o OneLake. Você pode consultar esses dados do Power BI usando o modo Direct Lake sem copiar dados para o Serviço do Power BI. Para obter mais informações, consulte Direct Lake Mode.

Detalhes do cenário

Pequenas e médias empresas que têm um ambiente existente do Azure Databricks e, opcionalmente, uma arquitetura lakehouse, podem se beneficiar desse padrão. Atualmente, eles usam uma ferramenta de extração, transformação e carregamento do Azure, como o Azure Data Factory, e fornecem relatórios no Power BI. No entanto, eles também podem ter várias fontes de dados que usam diferentes formatos de dados proprietários no mesmo data lake, o que leva à duplicação de dados e a preocupações com a dependência do fornecedor. Essa situação pode complicar o gerenciamento de dados e aumentar a dependência de fornecedores específicos. Eles também podem exigir relatórios de up-todata e quase em tempo real para a tomada de decisões e estar interessados em adotar ferramentas de IA em todo o seu ambiente.

O Fabric é uma base SaaS aberta, unificada e governada que você pode usar para:

  • Use o OneLake para armazenar, gerenciar e analisar dados em um único local sem preocupações com a dependência do fornecedor.

  • Inove mais rapidamente com integrações a aplicações Microsoft 365.

  • Obtenha informações rápidas com os benefícios do modo de lago direto do Power BI.

  • Beneficie-se do Copilots em todas as experiências do Fabric.

  • Acelere a análise desenvolvendo modelos de IA em uma única base.

  • Mantenha os dados no lugar sem movimento, o que reduz o tempo que os cientistas de dados precisam para fornecer valor.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.

Próximos passos