Compartilhar via


Usar computação particionada no Dataflow Gen2 (versão prévia)

Observação

A computação particionada está atualmente em versão prévia e só está disponível no Dataflow Gen2 com CI/CD.

A computação particionada é uma funcionalidade do mecanismo do Dataflow Gen2 que permite que partes da lógica do fluxo de dados sejam executadas em paralelo, reduzindo o tempo para concluir as avaliações.

A computação particionada direciona cenários em que o mecanismo de fluxo de dados pode dobrar com eficiência operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, num cenário de conexão com vários arquivos armazenados em um Azure Data Lake Storage Gen2, é possível particionar a lista de arquivos da origem, obter eficientemente a lista particionada de arquivos usando o dobramento de consultas, utilizar a função de combinação de arquivos e processar todos os arquivos em paralelo.

Observação

Somente os conectores do Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder e Armazenamento de Blobs do Azure emitem o script correto para usar a computação particionada. O conector do SharePoint não dá suporte a ele hoje.

Como definir a computação particionada

Para usar essa funcionalidade, você precisa:

Habilitar configurações de fluxo de dados

Dentro da guia Página Inicial da faixa de opções, selecione o botão Opções para exibir sua janela de diálogo. Navegue até a seção Escala e habilite a configuração que lê Permitir o uso da computação particionada.

Captura de tela da configuração de computação particionada na seção de escala da caixa de diálogo das opções.

Habilitar essa opção tem duas finalidades:

  • Permite que o Dataflow utilize computação particionada, se descoberto através dos seus scripts de consulta.

  • Experiências como os arquivos de combinação agora criarão automaticamente chaves de partição que podem ser usadas para computados particionados

Você também precisa habilitar a configuração na seção Privacidade para permitir a combinação de dados de várias fontes.

Consulta com chave de partição

Observação

Para usar a computação particionada, verifique se a consulta está definida para ser estagiada.

Depois de habilitar a configuração, você pode usar a experiência de combinar arquivos para uma fonte de dados que usa a exibição do sistema de arquivos, como o Azure Data Lake Storage Gen2. Quando a experiência de combinação de arquivos for finalizada, você observará que sua consulta tem uma etapa personalizada adicionada , que tem um script semelhante a este:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Esse script e, especificamente, o componente withPartitionKey, executa a lógica de como o Dataflow tenta particionar os seus dados e avaliar os elementos em paralelo.

Você pode usar a função Table.PartitionKey na etapa Adicionada personalizada. Essa função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Você pode obter uma lista distinta dos valores nessa coluna para entender todas as partições que serão usadas durante a execução do fluxo de dados.

Importante

É importante que a coluna de chave de partição permaneça na consulta para que a computação particionada seja aplicada.

Considerações e recomendações

  • Para cenários em que sua fonte de dados não suporta a aplicação das transformações para seus arquivos, é recomendável que você escolha o processamento particionado em vez de cópia rápida.

  • Para obter o melhor desempenho, use esse método para carregar dados diretamente para o staging como seu destino ou para um Fabric Warehouse.

  • Utilize o arquivo de transformação Exemplo da função Combinar arquivos para introduzir transformações que devem ocorrer em cada arquivo.

  • A computação particionada dá suporte apenas a um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.

  • A cobrança pela execução do fluxo de dados é baseada no consumo de unidades de capacidade (CU).