Usar computação particionada no Dataflow Gen2 (versão prévia)

Observação

A computação particionada está atualmente em versão prévia e só está disponível no Dataflow Gen2 com CI/CD.

A computação particionada é uma funcionalidade do mecanismo do Dataflow Gen2 que permite que partes da lógica do fluxo de dados sejam executadas em paralelo, reduzindo o tempo para concluir as avaliações.

A computação particionada direciona cenários em que o mecanismo de fluxo de dados pode dobrar com eficiência operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, num cenário de conexão com vários arquivos armazenados em um Azure Data Lake Storage Gen2, é possível particionar a lista de arquivos da origem, obter eficientemente a lista particionada de arquivos usando o dobramento de consultas, utilizar a função de combinação de arquivos e processar todos os arquivos em paralelo.

Observação

Somente os conectores do Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder e Armazenamento de Blobs do Azure emitem o script correto para usar a computação particionada. O conector do SharePoint não dá suporte a ele hoje.

Como definir a computação particionada

Para usar essa funcionalidade, você precisa:

Habilitar configurações de fluxo de dados
Consulta com chaves de partição

Habilitar configurações de fluxo de dados

Dentro da guia Página Inicial da faixa de opções, selecione o botão Opções para exibir sua janela de diálogo. Navegue até a seção Escala e habilite a configuração que lê Permitir o uso da computação particionada.

Captura de tela da configuração de computação particionada na seção de escala da caixa de diálogo das opções.

Habilitar essa opção tem duas finalidades:

Permite que o Dataflow utilize computação particionada, se descoberto através dos seus scripts de consulta.
Experiências como os arquivos de combinação agora criarão automaticamente chaves de partição que podem ser usadas para computados particionados

Você também precisa habilitar a configuração na seção Privacidade para permitir a combinação de dados de várias fontes.

Consulta com chave de partição

Observação

Para usar a computação particionada, verifique se a consulta está definida para ser estagiada.

Depois de habilitar a configuração, você pode usar a experiência de combinar arquivos para uma fonte de dados que usa a exibição do sistema de arquivos, como o Azure Data Lake Storage Gen2. Quando a experiência de combinação de arquivos for finalizada, você observará que sua consulta tem uma etapa personalizada adicionada , que tem um script semelhante a este:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Esse script e, especificamente, o componente withPartitionKey, executa a lógica de como o Dataflow tenta particionar os seus dados e avaliar os elementos em paralelo.

Você pode usar a função Table.PartitionKey na etapa Adicionada personalizada. Essa função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Você pode obter uma lista distinta dos valores nessa coluna para entender todas as partições que serão usadas durante a execução do fluxo de dados.

Importante

É importante que a coluna de chave de partição permaneça na consulta para que a computação particionada seja aplicada.

Considerações e recomendações

Para cenários em que sua fonte de dados não suporta a aplicação das transformações para seus arquivos, é recomendável que você escolha o processamento particionado em vez de cópia rápida.
Para obter o melhor desempenho, use esse método para carregar dados diretamente para o staging como seu destino ou para um Fabric Warehouse.
Utilize o arquivo de transformação Exemplo da função Combinar arquivos para introduzir transformações que devem ocorrer em cada arquivo.
A computação particionada dá suporte apenas a um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.
A cobrança pela execução do fluxo de dados é baseada no consumo de unidades de capacidade (CU).

Comentários

Esta página foi útil?

Last updated on 2025-09-17

Compartilhar via

Usar computação particionada no Dataflow Gen2 (versão prévia)

Como definir a computação particionada

Habilitar configurações de fluxo de dados

Consulta com chave de partição

Considerações e recomendações

Comentários

Recursos adicionais