Partilhar via


Cópia rápida no Dataflow Gen2

A cópia rápida ajuda você a mover grandes quantidades de dados mais rapidamente no Dataflow Gen2. Pense nisso como mudar para um mecanismo mais poderoso quando você precisa lidar com terabytes de dados.

Quando você está trabalhando com fluxos de dados, você precisa ingerir dados primeiro e, em seguida, transformá-los. Com a expansão do fluxo de dados usando a computação SQL DW, você pode transformar dados em escala. A cópia rápida cuida da parte de ingestão, oferecendo a fácil experiência de fluxo de dados com o poderoso back-end da Atividade de Cópia de pipeline.

Funciona assim: Depois de ativar a cópia rápida, os fluxos de dados mudam automaticamente para o back-end mais rápido quando o tamanho dos dados ultrapassa um determinado limite. Você não precisa alterar nada ao criar seus fluxos de dados. Após as atualizações do fluxo de dados, você pode verificar o histórico de atualizações para ver se a cópia rápida foi usada, observando o tipo de mecanismo listado lá.

Se você habilitar a opção Exigir cópia rápida , a atualização do fluxo de dados será interrompida se a cópia rápida não puder ser usada por algum motivo. Isso ajuda a evitar esperar por um tempo limite e pode ser útil ao depurar. Você pode usar os indicadores de cópia rápida no painel de etapas de consulta para verificar se sua consulta pode ser executada com cópia rápida.

Captura de tela mostrando onde o indicador de cópia rápida aparece no painel de etapas de consulta.

Prerequisites

Antes de poder usar a cópia rápida, você precisará:

  • Uma capacidade de tecido
  • Para dados de arquivo: arquivos CSV ou Parquet com pelo menos 100 MB e armazenados no Azure Data Lake Storage (ADLS) Gen2 ou em armazenamento de blobs.
  • Para bancos de dados (incluindo Banco de Dados SQL do Azure e PostgreSQL): 5 milhões de linhas ou mais de dados na fonte de dados

Note

Você pode ignorar o limite para forçar a cópia rápida selecionando a configuração Exigir cópia rápida .

Suporte de conector

A cópia rápida funciona com estes conectores Dataflow Gen2:

  • ADLS Gen2
  • Armazenamento de Blobs
  • Azure SQL Database
  • Lakehouse
  • PostgreSQL
  • Servidor SQL local
  • Warehouse
  • Oracle
  • Snowflake
  • Banco de dados SQL no Fabric

Limitações da transformação

Ao conectar-se a fontes de arquivo, a atividade de cópia suporta apenas estas transformações:

  • Combinar ficheiros
  • Selecionar colunas
  • Alterar tipos de dados
  • Renomear uma coluna
  • Remover uma coluna

Se precisar de outras transformações, você pode dividir seu trabalho em consultas separadas. Crie uma consulta para obter os dados e outra consulta que faça referência à primeira. Dessa forma, você pode usar a computação DW para as transformações.

Para fontes SQL, qualquer transformação que faça parte da consulta nativa funciona bem.

Destinos de saída

No momento, a cópia rápida suporta apenas o carregamento diretamente para um destino Lakehouse. Se quiser usar um destino de saída diferente, você pode preparar a consulta primeiro e fazer referência a ela em uma consulta posterior com seu destino preferido.

Como usar cópia rápida

Veja como configurar e usar a cópia rápida:

  1. No Fabric, vá para um espaço de trabalho premium e crie um Dataflow Gen2.

  2. Na guia Página Inicial do seu novo fluxo de dados, selecione Opções:

    Captura de tela mostrando onde selecionar as Opções para Dataflow Gen2 na guia Página Inicial.

  3. Na caixa de diálogo Opções, selecione a guia Escala e ative Permitir o uso de conectores de cópia rápida. Feche a caixa de diálogo Opções quando terminar.

    Captura de ecrã a mostrar onde ativar a cópia rápida no separador Escala da caixa de diálogo Opções.

  4. Selecione Obter dados, escolha a fonte ADLS Gen2 e preencha os detalhes do seu contêiner.

  5. Selecione o botão Combinar .

    Captura de ecrã a mostrar a janela de dados da pasta Pré-visualizar com a opção Combinar realçada.

  6. Para garantir que a cópia rápida funcione, aplique apenas as transformações listadas na secção Suporte do conector . Se você precisar de outras transformações, prepare os dados primeiro e faça referência à consulta em estágios em uma consulta posterior. Aplique suas outras transformações à consulta referenciada.

  7. (Opcional) Você pode exigir cópia rápida para a consulta clicando com o botão direito do mouse na consulta e selecionando Exigir cópia rápida.

    Captura de ecrã a mostrar onde selecionar a opção Exigir cópia rápida no menu do botão direito do rato para uma consulta.

  8. (Opcional) No momento, você só pode configurar um Lakehouse como destino de saída. Para qualquer outro destino, prepare a consulta e faça referência a ela posteriormente em outra consulta onde você pode enviar para qualquer fonte.

  9. Verifique os indicadores de cópia rápida para garantir que a sua consulta possa ser executada de forma eficiente. Se puder, o tipo Engine mostra CopyActivity.

    Captura de ecrã mostrando os detalhes de atualização que indicam que o motor CopyActivity do pipeline foi utilizado.

  10. Publique o fluxo de dados.

  11. Após a conclusão da atualização, verifique se a cópia rápida foi usada.

Como dividir sua consulta para usar cópia rápida

Quando se está a trabalhar com grandes quantidades de dados, pode-se obter o melhor desempenho usando cópia rápida para ingerir dados na zona de preparação primeiro e, em seguida, transformá-los em escala com cálculo do SQL DW.

Os indicadores de cópia rápida ajudam você a descobrir como dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Tente enviar o máximo possível da sua avaliação de consulta para uma cópia rápida para a ingestão de dados. Quando os indicadores de cópia rápida mostram que as etapas restantes não podem ser executadas com cópia rápida, pode dividir o restante da consulta com a preparação ativada.

Indicadores de diagnóstico por etapas

Indicator Icon Description
Esta etapa será avaliada com cópia acelerada O indicador de cópia rápida mostra que a consulta até esta etapa suporta cópia rápida.
Este passo não é suportado pela cópia rápida O indicador de cópia rápida mostra que esta etapa não suporta cópia rápida.
Uma ou mais etapas na sua consulta não são suportadas pela cópia rápida O indicador de cópia rápida mostra que algumas etapas nesta consulta suportam cópia rápida, enquanto outras não. Para otimizar, divida a consulta: etapas amarelas (potencialmente suportadas pela cópia rápida) e etapas vermelhas (não suportadas).

Orientação passo a passo

Depois de concluir a lógica de transformação de dados no Dataflow Gen2, o indicador de cópia rápida avalia cada etapa para descobrir quantas etapas podem usar a cópia rápida para um melhor desempenho.

Neste exemplo, a última etapa mostra um ícone vermelho, o que significa que o passo Agrupar por não é suportado pela cópia rápida. No entanto, todas as etapas anteriores com ícones amarelos podem ser suportadas por cópia rápida.

Captura de ecrã a mostrar o conteúdo da primeira consulta com o último passo a vermelho.

Se você publicar e executar seu Dataflow Gen2 neste momento, ele não usará o mecanismo de cópia rápida para carregar seus dados.

Captura de ecrã a mostrar o resultado da consulta sem cópia rápida ativada.

Para usar o mecanismo de cópia rápida e melhorar o desempenho do Dataflow Gen2, você pode dividir sua consulta em duas partes: ingestão de dados para preparo e transformação em grande escala com computação SQL DW. Saiba como:

  1. Exclua todas as transformações que mostrem ícones vermelhos (o que significa que eles não são suportados pela cópia rápida) junto com o destino (se você definiu um).

    Captura de ecrã a mostrar a primeira consulta, onde eliminou todos os passos que não suportam cópia rápida.

  2. O indicador de cópia rápida agora mostra verde para as etapas restantes, o que significa que sua primeira consulta pode usar cópia rápida para melhor desempenho.

    Clique com o botão direito do rato na sua primeira consulta, selecione Ativar preparo e, em seguida, clique novamente com o botão direito do rato na sua primeira consulta e selecione Referência.

    Captura de ecrã a mostrar as seleções necessárias para referenciar a sua consulta de cópia rápida com uma segunda consulta.

  3. Na sua nova consulta referenciada, adicione novamente a transformação "Agrupar por" e o destino (se aplicável).

  4. Publique e atualize seu Dataflow Gen2. Agora você tem duas consultas em seu Dataflow Gen2 e a duração geral é menor.

    • A primeira consulta insere dados em estágio usando cópia rápida.

    • A segunda consulta faz transformações em grande escala usando a computação SQL DW.

      Captura de tela dos detalhes do estado de execução mostrando os resultados da consulta.

    Os detalhes da primeira consulta:

    Captura de ecrã a mostrar os resultados da ingestão de dados.

    A segunda consulta detalha:

    Captura de tela mostrando os resultados das etapas de transformação.

Limitações conhecidas

Aqui estão as limitações atuais para cópia rápida:

  • Você precisa de um gateway de dados local versão 3000.214.2 ou mais recente para oferecer suporte à cópia rápida.
  • Não há suporte para esquema fixo.
  • O destino baseado em esquema não é suportado