Używanie partycjonowanych zasobów obliczeniowych w usłudze Dataflow Gen2 (wersja zapoznawcza)

Uwaga / Notatka

Partycjonowane przetwarzanie jest obecnie w wersji zapoznawczej i dostępne tylko w usłudze Dataflow Gen2 z ciągłą integracją i ciągłym wdrażaniem (CI/CD).

Komputacja partycjonowana to funkcja aparatu Dataflow Gen2, która pozwala na równoczesne wykonywanie części logiki przepływu danych, co skraca czas na ukończenie ewaluacji.

Scenariusze z partycjonowanymi celami obliczeniowymi dotyczą przypadków, w których silnik przetwarzania danych może wydajnie integrować operacje, które mogą partycjonować źródło danych i przetwarzać każdą partycję równolegle. Na przykład w scenariuszu, w którym łączysz się z wieloma plikami przechowywanymi w usłudze Azure Data Lake Storage Gen2, możesz podzielić listę plików źródłowych, efektywnie pobrać partycjonowaną listę plików przy użyciu składania zapytań, skorzystać z funkcji łączenia plików i przetworzyć wszystkie pliki równolegle.

Uwaga / Notatka

Tylko łączniki dla usługi Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder i Azure Blob Storage emitują prawidłowy skrypt do używania partycjonowanych obliczeń. Łącznik dla programu SharePoint nie obsługuje go obecnie.

Jak ustawić partycjonowane obliczenia

Aby móc korzystać z tej funkcji, musisz:

Włączanie ustawień przepływu danych
Wykonywanie zapytań przy użyciu kluczy partycji

Włączanie ustawień przepływu danych

Na karcie Narzędzia główne na wstążce wybierz przycisk Opcje , aby wyświetlić okno dialogowe. Przejdź do sekcji Skalowanie i włącz ustawienie zezwalające na używanie partycjonowanych zasobów obliczeniowych.

Zrzut ekranu przedstawiający partycjonowane ustawienie obliczeniowe wewnątrz sekcji skalowania okna dialogowego opcji.

Włączenie tej opcji ma dwa cele:

Umożliwia użycie partycjonowanych obliczeń w Dataflow, jeśli zostaną wykryte poprzez skrypty zapytań
Doświadczenia, takie jak łączenie plików, będą teraz automatycznie tworzyć klucze partycji, których można używać do obliczeń partycjonowanych.

Należy również włączyć ustawienie w sekcji Prywatność, aby zezwolić na łączenie danych z wielu źródeł.

Wykonywanie zapytań przy użyciu klucza partycji

Uwaga / Notatka

Aby używać partycjonowanych obliczeń, upewnij się, że zapytanie jest ustawione na etapy.

Po włączeniu tego ustawienia możesz użyć środowiska łączenia plików dla źródła danych korzystającego z widoku systemu plików, takiego jak Azure Data Lake Storage Gen2. Po zakończeniu procesu łączenia plików zauważysz, że zapytanie ma krok Dodano niestandardowy, który ma skrypt podobny do następującego:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Ten skrypt, a w szczególności składnik withPartitionKey, określa logikę sposobu, w jaki Dataflow próbuje dzielić dane na partycje i jak próbuje oceniać elementy równolegle.

Możesz użyć funkcji Table.PartitionKey względem kroku Dodany niestandardowy. Ta funkcja zwraca klucz partycji określonej tabeli. W powyższym przypadku jest to kolumna RelativePath. Możesz uzyskać odrębną listę wartości w tej kolumnie, aby zrozumieć wszystkie partycje, które będą używane podczas uruchamiania przepływu danych.

Ważne

Ważne jest, aby kolumna klucza partycji pozostała w zapytaniu w celu zastosowania partycjonowanych zasobów obliczeniowych.

Zagadnienia i zalecenia

W przypadku scenariuszy, w których źródło danych nie obsługuje składania przekształceń dla plików, zaleca się wybranie partycjonowanych zasobów obliczeniowych zamiast szybkiej kopii.
Aby uzyskać najlepszą wydajność, użyj tej metody, aby załadować dane bezpośrednio do staging jako miejsce docelowe lub do magazynu Fabric.
Użyj przykładowego pliku przekształcania ze środowiska Łączenia plików , aby wprowadzić przekształcenia, które powinny wystąpić w każdym pliku.
Partycjonowane obliczenia obsługują tylko podzestaw przekształceń. Wydajność może się różnić w zależności od źródła i zestawu użytych przekształceń.
Rozliczanie przepływu danych jest oparte na zużyciu jednostek wydajności (CU).

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-09-16

Udostępnij przez

Używanie partycjonowanych zasobów obliczeniowych w usłudze Dataflow Gen2 (wersja zapoznawcza)

Jak ustawić partycjonowane obliczenia

Włączanie ustawień przepływu danych

Wykonywanie zapytań przy użyciu klucza partycji

Zagadnienia i zalecenia

Sprzężenie zwrotne

Dodatkowe źródła