Partilhar via


Usar computação particionada no Dataflow Gen2 (Visualização)

Observação

A computação particionada está atualmente em pré-visualização e só está disponível no Dataflow Gen2 com CI/CD.

A computação particionada é um recurso do mecanismo Dataflow Gen2 que permite que partes da lógica de fluxo de dados sejam executadas em paralelo, reduzindo o tempo para concluir suas avaliações.

A computação particionada destina-se a cenários em que o mecanismo de fluxo de dados pode dobrar eficientemente operações que podem particionar a fonte de dados e processar cada partição em paralelo. Por exemplo, em um cenário em que você está se conectando a vários arquivos armazenados em um Azure Data Lake Storage Gen2, você pode particionar a lista de arquivos de sua origem, recuperar eficientemente a lista particionada de arquivos usando dobragem de consulta, usar a experiência de combinar arquivos e processar todos os arquivos em paralelo.

Observação

Somente os conectores do Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder e Azure Blob Storage emitem o script correto para usar computação particionada. O conector para SharePoint não oferece suporte a ele atualmente.

Como definir computação particionada

Para usar esse recurso, você precisa:

Habilitar configurações de fluxo de dados

No separador Página Inicial do friso, selecione o botão Opções para exibir a sua caixa de diálogo. Navegue até a seção Escala e habilite a configuração que lê Permitir o uso de computação particionada.

Captura de tela da configuração de computação particionada dentro da seção de escala da caixa de diálogo de opções.

Ativar esta opção tem duas finalidades:

  • Permite que o Dataflow use computação particionada, caso seja descoberta por meio dos seus scripts de consulta

  • Experiências como a combinação de arquivos agora criarão automaticamente chaves de partição que podem ser usadas para computação particionada.

Você também precisa habilitar a configuração na seção Privacidade para Permitir a combinação de dados de várias fontes.

Consulta com chave de partição

Observação

Para usar computação particionada, verifique se a sua consulta está configurada para ser encenada.

Depois de habilitar a configuração, você pode usar a experiência de combinar arquivos para uma fonte de dados que usa a exibição do sistema de arquivos, como o Azure Data Lake Storage Gen2. Quando o processo de combinar arquivos é finalizado, nota-se que a sua consulta possui um Passo Personalizado Adicionado, que contém um script semelhante a este:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Esse script, e especificamente o withPartitionKey componente, orienta a lógica sobre como seu Dataflow tenta particionar seus dados e como ele tenta avaliar as coisas em paralelo.

Você pode usar a função Table.PartitionKey na etapa Adicionado personalizado. Esta função retorna a chave de partição da tabela especificada. Para o caso acima, é a coluna RelativePath. Você pode obter uma lista distinta dos valores nessa coluna para entender todas as partições que serão usadas durante a execução do fluxo de dados.

Importante

É importante que a coluna da chave de partição permaneça na consulta para que a computação particionada seja aplicada.

Considerações e recomendações

  • Para cenários em que a sua fonte de dados não suporta a aplicação de transformações aos seus ficheiros, é recomendável que escolha o processamento particionado em detrimento da cópia rápida.

  • Para obter o melhor desempenho, use este método para carregar dados diretamente para a área de staging como o seu destino ou para um Fabric Warehouse.

  • Use o arquivo de transformação de exemplo da experiência Combinar arquivos para introduzir transformações que devem acontecer em cada arquivo.

  • A computação particionada suporta apenas um subconjunto de transformações. O desempenho pode variar dependendo da origem e do conjunto de transformações usadas.

  • A cobrança da execução do fluxo de dados é baseada no consumo da unidade de capacidade ().