Guia de decisão do Microsoft Fabric: atividade de cópia, trabalho de cópia, fluxo de dados, fluxo de eventos ou Spark

Use este guia de referência e os cenários de exemplo para ajudá-lo a decidir se precisa de uma atividade de cópia, trabalho de cópia, fluxo de dados, fluxo de eventos ou Spark para suas cargas de trabalho do Microsoft Fabric.

Atividade de cópia, trabalho de cópia, fluxo de dados, fluxo de eventos e propriedades do Spark

	Atividade de cópia de pipeline	Trabalho de cópia	Fluxo de dados Geração 2	Fluxo de eventos	Faísca
Caso de uso	Migração de lago de dados e armazém de dados, ingestão de dados, transformação leve	Ingestão de dados, Cópia incremental, Replicação, Migração de Data Lake e Data Warehouse, transformação leve	Ingestão de dados, transformação de dados, disputa de dados, definição de perfis de dados	ingestão de dados de eventos, Transformação de dados de eventos	Ingestão de dados, transformação de dados, tratamento de dados, definição de perfis de dados
Persona principal do desenvolvedor	Engenheiro de dados, integrador de dados	Analista de Negócios, Integrador de Dados, Engenheiros de Dados	Engenheiro de dados, integrador de dados, Analista de Negócios	Engenheiro de dados, cientista de dados, Desenvolvedor de dados	Integrador de dados, Engenheiro de Dados
Conjunto de habilidades de desenvolvedor principal	ETL, SQL, JSON	ETL, SQL, JSON	ETL, M, SQL	SQL, JSON, mensagens	Spark (Scala, Python, Spark SQL, R)
Código já escrito	Sem código, código baixo	Sem código, código baixo	Sem código, código baixo	Sem código, código baixo	Código
Volume de dados	Baixo a alto	Baixo a alto	Baixo a alto	Médio a Alto	Baixo a alto
Interface de desenvolvimento	Feiticeiro tela	Feiticeiro tela	Power query	Tela	Caderno, Definição de trabalho do Spark
Fontes	50+ conectores	50+ conectores	150+ conectores	Banco de dados com suporte a CDC (Change Data Capture), Kafka, Sistemas de mensagens que suportam padrão de publicação e assinatura, Fluxos de eventos	Centenas de bibliotecas Spark
Destinos	40+ conectores	40+ conectores	Casa do lago, Banco de dados SQL do Azure, Azure Data explorer, Azure Synapse analytics	Eventhouse, Lakehouse, Alerta de ativador, Fluxo derivado, Ponto final personalizado	Centenas de bibliotecas Spark
Complexidade da transformação	Baixa: leve - conversão de tipo, mapeamento de colunas, mesclagem/divisão de arquivos, hierarquia nivelada	Baixa: leve - conversão de tipo, mapeamento de colunas, mesclagem/divisão de arquivos, hierarquia nivelada	De baixo para alto: + de 300 funções de transformação	Baixa: leve	De baixo para alto: suporte para Spark nativo e bibliotecas de código aberto

Cenários

Analise os cenários a seguir para obter ajuda na escolha de como trabalhar com seus dados no Fabric.

Cenário 1

Leo, um engenheiro de dados, precisa ingerir um grande volume de dados de sistemas externos, tanto no local quanto na nuvem. Esses sistemas externos incluem bancos de dados, sistemas de arquivos e APIs. Leo não quer escrever e manter código para cada conector ou operação de movimentação de dados. Ele quer seguir as melhores práticas das camadas do sistema de medalhas, com bronze, prata e ouro. Leo não tem nenhuma experiência com o Spark, então ele prefere a interface do usuário de arrastar e soltar tanto quanto possível, com codificação mínima. E ele também quer processar os dados em um cronograma.

A primeira etapa é obter os dados brutos para a camada bronze a partir de recursos de dados do Azure e várias fontes de terceiros (como Snowflake Web, REST, AWS S3, GCS, etc.). Ele quer um lakehouse consolidado, para que todos os dados de várias fontes de LOB, locais e de nuvem residam em um único lugar. Leo analisa as opções e seleciona a atividade de cópia de pipeline como a escolha apropriada para a sua cópia binária bruta. Esse padrão se aplica à atualização de dados históricos e incrementais. Com a atividade de cópia, o Leo pode carregar dados 'Gold' num data warehouse sem necessidade de código, caso se justifique, e os pipelines proporcionam uma ingestão de dados de alta escala que pode mover dados em escala de petabytes. A atividade de cópia é a melhor opção low-code e no-code para mover petabytes de dados para lakehouses e armazéns a partir de variedades de fontes, seja ad hoc ou por meio de um cronograma.

Cenário 2

Mary é engenheira de dados com um profundo conhecimento dos vários requisitos de relatórios analíticos LOB. Uma equipa upstream implementou com sucesso uma solução para migrar os dados históricos e incrementais de várias Linhas de Negócio (LOB) para um lakehouse comum. Mary foi encarregada de limpar os dados, aplicar lógicas de negócios e carregá-los em vários destinos (como Azure SQL DB, ADX e uma lakehouse) em preparação para suas respetivas equipes de relatórios.

Mary é uma usuária experiente do Power Query e o volume de dados está na faixa baixa a média para alcançar o desempenho desejado. Os fluxos de dados fornecem interfaces no-code ou low-code para a ingestão de dados a partir de centenas de fontes. Com fluxos de dados, você pode transformar dados usando 300+ opções de transformação de dados e gravar os resultados em vários destinos com uma interface de usuário fácil de usar e altamente visual. Mary analisa as opções e decide que faz sentido usar Dataflow Gen 2 como sua opção de transformação preferida.

Cenário 3

Prashant, um integrador de dados com profunda experiência em processos e sistemas de negócios. Uma equipe upstream expôs com êxito dados de eventos de aplicativos de negócios como mensagens que podem ser consumidas por meio de sistemas downstream. O Prashant foi designado para integrar dados de eventos de aplicativos de negócios no Microsoft Fabric para suporte a decisões em tempo real.

Dado o volume de dados médio a alto e a preferência da organização por soluções sem código, a Prashant busca uma maneira de encaminhar eventos perfeitamente à medida que eles ocorrem sem gerenciar agendas de extração. Para atender a essa necessidade, ele escolhe o Eventstreams no Microsoft Fabric. Os fluxos de eventos dentro da experiência do Real-Time Intelligence permitem a ingestão, transformação e roteamento de dados em tempo real para vários destinos, tudo sem escrever nenhum código.

Cenário 4

Adam é um engenheiro de dados que trabalha para uma grande empresa de varejo que usa um lakehouse para armazenar e analisar os dados de seus clientes. Como parte de seu trabalho, Adam é responsável pela construção e manutenção dos dutos que extraem, transformam e carregam dados na casa do lago. Um dos requisitos de negócios da empresa é realizar análises de avaliação de clientes para obter insights sobre as experiências de seus clientes e melhorar seus serviços.

Adam decide que a melhor opção é usar Spark para construir a lógica de extração e transformação. O Spark fornece uma plataforma de computação distribuída que pode processar grandes quantidades de dados em paralelo. Ele escreve um aplicativo Spark usando Python ou Scala, que lê dados estruturados, semi-estruturados e não estruturados do OneLake para avaliações e feedback dos clientes. O aplicativo limpa, transforma e grava dados em tabelas Delta na casa do lago. Os dados estão então prontos para serem usados para análises a jusante.

Cenário 5

Rajesh, um engenheiro de dados, é encarregado de ingerir dados incrementais de um SQL Server local em um Banco de Dados SQL do Azure. A instância do SQL Server no local de Rajesh já tem o Change Data Capture (CDC) habilitado em tabelas chave.

Rajesh está à procura de uma solução simples, low-code e orientada por assistentes que lhe permita:

Selecione várias tabelas de origem nativas com CDC ativado
Executar uma carga completa inicial
Alternar automaticamente para cargas de dados incrementais com base no CDC
Agendar atualizações de dados para atualizações recorrentes

Ele quer evitar escrever código personalizado ou gerenciar orquestrações complexas. Idealmente, ele quer um "assistente 5x5" onde ele pode realizar a configuração em apenas alguns cliques.

Rajesh escolhe o recurso Copiar trabalho no Microsoft Fabric. Com suporte a gateway local, ele se conecta com segurança ao SQL Server, seleciona as tabelas desejadas e configura o fluxo para aterrissar no Banco de Dados SQL do Azure de destino.

O trabalho de cópia proporciona uma experiência de movimentação de dados de baixo atrito e escalável, cumprindo os requisitos de Rajesh sem a necessidade de manter pipelines complexos.

Feedback

Esta página foi útil?

Last updated on 2025-06-04