Compartilhar via


Cópia rápida no fluxo de dados Gen2

A cópia rápida ajuda você a mover grandes quantidades de dados mais rapidamente no Dataflow Gen2. Pense nisso como alternar para um mecanismo mais poderoso quando precisar lidar com terabytes de dados.

Ao trabalhar com fluxos de dados, você precisa ingerir dados primeiro e, em seguida, transformá-los. Com a expansão do fluxo de dados usando a computação SQL DW, você pode transformar dados em grande escala. A cópia rápida cuida da parte de ingestão, proporcionando a experiência de fluxo de dados fácil com o back-end avançado da Atividade de Cópia de pipeline.

Veja como funciona: depois de habilitar a cópia rápida, os fluxos de dados alternam automaticamente para o back-end mais rápido quando o tamanho dos dados passa por um determinado limite. Você não precisa alterar nada durante a criação de seus fluxos de dados. Depois que o fluxo de dados for atualizado, você pode conferir no histórico de atualizações se a cópia rápida foi utilizada, analisando o tipo de mecanismo listado lá.

Se você habilitar a opção Exigir cópia rápida , a atualização do fluxo de dados será interrompida se a cópia rápida não puder ser usada por algum motivo. Isso ajuda você a evitar esperar por um tempo limite e pode ser útil ao depurar. Você pode usar os indicadores de cópia rápida no painel de etapas de consulta para verificar se a consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Prerequisites

Antes de usar a cópia rápida, você precisará de:

  • Uma capacidade da estrutura Fabric
  • Para dados de arquivo: arquivos CSV ou Parquet com pelo menos 100 MB e armazenados no Azure Data Lake Storage (ADLS) Gen2 ou armazenamento de blobs
  • Para bancos de dados (incluindo o BD SQL do Azure e o PostgreSQL): 5 milhões de linhas ou mais de dados na fonte de dados

Note

Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração Exigir cópia rápida .

Suporte ao conector

A cópia rápida funciona com estes conectores do Dataflow Gen2:

  • ADLS Gen2
  • Armazenamento de Blobs
  • Banco de Dados SQL do Azure
  • Lakehouse
  • PostgreSQL
  • SQL Server em ambientes locais
  • Warehouse
  • Oracle
  • Snowflake
  • Banco de dados SQL no Fabric

Limitações de transformação

Ao se conectar a fontes de arquivo, a atividade de cópia dá suporte apenas a essas transformações:

  • Combinar arquivos
  • Selecionar colunas
  • Alterar tipos de dados
  • Renomear uma coluna
  • Remover uma coluna

Se precisar de outras transformações, você poderá dividir seu trabalho em consultas separadas. Crie uma consulta para obter os dados e outra consulta que referencia a primeira. Dessa forma, você pode usar a computação DW para as transformações.

Para fontes SQL, qualquer transformação que faça parte da consulta nativa funciona bem.

Destinos de saída

Neste momento, a cópia rápida só suporta o carregamento diretamente para um destino Lakehouse. Se você quiser usar um destino de saída diferente, poderá preparar a consulta primeiro e referenciá-la em uma consulta posterior com seu destino preferencial.

Como usar a cópia rápida

Veja como configurar e usar a cópia rápida:

  1. No Fabric, vá para um workspace premium e crie um Dataflow Gen2.

  2. Na guia Página Inicial do novo fluxo de dados, selecione Opções:

    Captura de tela mostrando onde selecionar as Opções de Fluxo de Dados Gen2 na guia Página Inicial.

  3. Na caixa de diálogo Opções , selecione a guia Dimensionar e ative Permitir o uso de conectores de cópia rápida. Feche a caixa de diálogo Opções quando terminar.

    Captura de tela mostrando onde habilitar a cópia rápida na guia Escala da caixa de diálogo Opções.

  4. Selecione Obter dados, escolha a origem do ADLS Gen2 e preencha os detalhes do contêiner.

  5. Selecione o botão Combinar .

    Captura de tela mostrando a janela de dados da pasta Visualizar com a opção Combinar realçada.

  6. Para garantir que a cópia rápida funcione, aplique somente as transformações listadas na seção de suporte do Conector . Se você precisar de outras transformações, prepare os dados primeiro e referencie a consulta em etapas em uma consulta posterior. Aplique suas outras transformações à consulta referenciada.

  7. (Opcional) Você pode exigir cópia rápida para a consulta clicando com o botão direito do mouse na consulta e selecionando Exigir cópia rápida.

    Captura de tela mostrando onde selecionar a opção Exigir cópia rápida no menu do botão direito do mouse para uma consulta.

  8. (Opcional) No momento, você só pode configurar um Lakehouse como o destino de saída. Para qualquer outro destino, prepare a consulta e a referencie posteriormente em outra consulta em que você possa gerar a saída para qualquer fonte.

  9. Verifique os indicadores de cópia rápida para garantir que sua consulta possa ser executada com cópia rápida. Se puder, o tipo enginemostrará CopyActivity.

    Captura de tela mostrando os detalhes da atualização que indicam que o mecanismo CopyActivity do pipeline foi usado.

  10. Publique o fluxo de dados.

  11. Após a conclusão da atualização, verifique se a cópia rápida foi usada.

Como dividir sua consulta para usar a cópia rápida

Quando você está trabalhando com grandes quantidades de dados, pode obter o melhor desempenho usando cópia rápida para ingerir dados na área de preparo primeiro e, em seguida, transformá-los em escala com a computação do SQL DW.

Indicadores de cópia rápida ajudam você a descobrir como dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Tente deslocar o máximo da sua avaliação de consulta para cópia rápida, tanto quanto possível, para a ingestão de dados. Se os indicadores de cópia rápida mostrarem que as etapas restantes não podem ser executadas com cópia rápida, você poderá dividir o restante da consulta com o estágio habilitado.

Indicadores de diagnóstico de etapa

Indicator Icon Description
Esta etapa será avaliada com cópia em alta velocidade O indicador de cópia rápida mostra que a consulta até esta etapa dá suporte à cópia rápida.
Este passo não é compatível com a cópia rápida O indicador de cópia rápida mostra que essa etapa não dá suporte à cópia rápida.
Uma ou mais etapas em sua consulta não são suportadas pela cópia rápida O indicador de cópia rápida mostra que algumas etapas nesta consulta dão suporte à cópia rápida, enquanto outras não. Para otimizar, divida a consulta: etapas amarelas (potencialmente compatíveis com cópia rápida) e etapas vermelhas (sem suporte).

Diretrizes passo a passo

Depois de concluir a lógica de transformação de dados no Dataflow Gen2, o indicador de cópia rápida avalia cada etapa para descobrir quantas etapas podem usar a cópia rápida para melhorar o desempenho.

Neste exemplo, a última etapa mostra um ícone vermelho, o que significa que a etapa Agrupar por não é compatível com cópia rápida. No entanto, todas as etapas anteriores com ícones amarelos podem potencialmente ser suportadas por cópia rápida.

Captura de tela mostrando o conteúdo da primeira consulta com a última etapa em vermelho.

Se você publicar e executar o Dataflow Gen2 neste momento, ele não usará o mecanismo de cópia rápida para carregar seus dados.

Captura de tela mostrando o resultado da consulta sem cópia rápida habilitada.

Para usar o mecanismo de cópia rápida e melhorar o desempenho do Dataflow Gen2, você pode dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Aqui está como:

  1. Exclua todas as transformações mostrando ícones vermelhos (o que significa que eles não têm suporte por cópia rápida) juntamente com o destino (se você definiu um).

    Captura de tela mostrando a primeira consulta, em que você excluiu todas as etapas que não dão suporte à cópia rápida.

  2. O indicador de cópia rápida agora mostra verde para as etapas restantes, o que significa que sua primeira consulta pode usar cópia rápida para melhorar o desempenho.

    Clique com o botão direito do mouse na primeira consulta, selecione Habilitar preparação, e clique com o botão direito do mouse na primeira consulta novamente e selecione Referência.

    Captura de tela mostrando as seleções necessárias para fazer referência à consulta de cópia rápida com uma segunda consulta.

  3. Em sua nova consulta referenciada, adicione de volta a transformação "Agrupar por" e o destino (se aplicável).

  4. Publique e atualize o Dataflow Gen2. Agora você tem duas consultas em seu Dataflow Gen2 e a duração geral é menor.

    • A primeira consulta ingere dados na área de preparo usando cópia rápida.

    • A segunda consulta faz transformações em grande escala usando a computação SQL DW.

      Captura de tela dos detalhes do estado de execução mostrando os resultados da consulta.

    Os primeiros detalhes da consulta:

    Captura de tela mostrando os resultados da ingestão de dados.

    Os detalhes da segunda consulta:

    Captura de tela mostrando os resultados das etapas de transformação.

Limitações conhecidas

Aqui estão as limitações atuais para cópia rápida:

  • Você precisa de um gateway de dados local versão 3000.214.2 ou mais recente para dar suporte à cópia rápida.
  • Não há suporte para esquema fixo.
  • Não há suporte para o destino baseado em esquema