Udostępnij przez


Używanie partycjonowanych zasobów obliczeniowych w usłudze Dataflow Gen2 (wersja zapoznawcza)

Uwaga / Notatka

Partycjonowane przetwarzanie jest obecnie w wersji zapoznawczej i dostępne tylko w usłudze Dataflow Gen2 z ciągłą integracją i ciągłym wdrażaniem (CI/CD).

Komputacja partycjonowana to funkcja aparatu Dataflow Gen2, która pozwala na równoczesne wykonywanie części logiki przepływu danych, co skraca czas na ukończenie ewaluacji.

Scenariusze z partycjonowanymi celami obliczeniowymi dotyczą przypadków, w których silnik przetwarzania danych może wydajnie integrować operacje, które mogą partycjonować źródło danych i przetwarzać każdą partycję równolegle. Na przykład w scenariuszu, w którym łączysz się z wieloma plikami przechowywanymi w usłudze Azure Data Lake Storage Gen2, możesz podzielić listę plików źródłowych, efektywnie pobrać partycjonowaną listę plików przy użyciu składania zapytań, skorzystać z funkcji łączenia plików i przetworzyć wszystkie pliki równolegle.

Uwaga / Notatka

Tylko łączniki dla usługi Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder i Azure Blob Storage emitują prawidłowy skrypt do używania partycjonowanych obliczeń. Łącznik dla programu SharePoint nie obsługuje go obecnie.

Jak ustawić partycjonowane obliczenia

Aby móc korzystać z tej funkcji, musisz:

Włączanie ustawień przepływu danych

Na karcie Narzędzia główne na wstążce wybierz przycisk Opcje , aby wyświetlić okno dialogowe. Przejdź do sekcji Skalowanie i włącz ustawienie zezwalające na używanie partycjonowanych zasobów obliczeniowych.

Zrzut ekranu przedstawiający partycjonowane ustawienie obliczeniowe wewnątrz sekcji skalowania okna dialogowego opcji.

Włączenie tej opcji ma dwa cele:

  • Umożliwia użycie partycjonowanych obliczeń w Dataflow, jeśli zostaną wykryte poprzez skrypty zapytań

  • Doświadczenia, takie jak łączenie plików, będą teraz automatycznie tworzyć klucze partycji, których można używać do obliczeń partycjonowanych.

Należy również włączyć ustawienie w sekcji Prywatność, aby zezwolić na łączenie danych z wielu źródeł.

Wykonywanie zapytań przy użyciu klucza partycji

Uwaga / Notatka

Aby używać partycjonowanych obliczeń, upewnij się, że zapytanie jest ustawione na etapy.

Po włączeniu tego ustawienia możesz użyć środowiska łączenia plików dla źródła danych korzystającego z widoku systemu plików, takiego jak Azure Data Lake Storage Gen2. Po zakończeniu procesu łączenia plików zauważysz, że zapytanie ma krok Dodano niestandardowy, który ma skrypt podobny do następującego:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Ten skrypt, a w szczególności składnik withPartitionKey, określa logikę sposobu, w jaki Dataflow próbuje dzielić dane na partycje i jak próbuje oceniać elementy równolegle.

Możesz użyć funkcji Table.PartitionKey względem kroku Dodany niestandardowy. Ta funkcja zwraca klucz partycji określonej tabeli. W powyższym przypadku jest to kolumna RelativePath. Możesz uzyskać odrębną listę wartości w tej kolumnie, aby zrozumieć wszystkie partycje, które będą używane podczas uruchamiania przepływu danych.

Ważne

Ważne jest, aby kolumna klucza partycji pozostała w zapytaniu w celu zastosowania partycjonowanych zasobów obliczeniowych.

Zagadnienia i zalecenia

  • W przypadku scenariuszy, w których źródło danych nie obsługuje składania przekształceń dla plików, zaleca się wybranie partycjonowanych zasobów obliczeniowych zamiast szybkiej kopii.

  • Aby uzyskać najlepszą wydajność, użyj tej metody, aby załadować dane bezpośrednio do staging jako miejsce docelowe lub do magazynu Fabric.

  • Użyj przykładowego pliku przekształcania ze środowiska Łączenia plików , aby wprowadzić przekształcenia, które powinny wystąpić w każdym pliku.

  • Partycjonowane obliczenia obsługują tylko podzestaw przekształceń. Wydajność może się różnić w zależności od źródła i zestawu użytych przekształceń.

  • Rozliczanie przepływu danych jest oparte na zużyciu jednostek wydajności (CU).