Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga / Notatka
Partycjonowane przetwarzanie jest obecnie w wersji zapoznawczej i dostępne tylko w usłudze Dataflow Gen2 z ciągłą integracją i ciągłym wdrażaniem (CI/CD).
Komputacja partycjonowana to funkcja aparatu Dataflow Gen2, która pozwala na równoczesne wykonywanie części logiki przepływu danych, co skraca czas na ukończenie ewaluacji.
Scenariusze z partycjonowanymi celami obliczeniowymi dotyczą przypadków, w których silnik przetwarzania danych może wydajnie integrować operacje, które mogą partycjonować źródło danych i przetwarzać każdą partycję równolegle. Na przykład w scenariuszu, w którym łączysz się z wieloma plikami przechowywanymi w usłudze Azure Data Lake Storage Gen2, możesz podzielić listę plików źródłowych, efektywnie pobrać partycjonowaną listę plików przy użyciu składania zapytań, skorzystać z funkcji łączenia plików i przetworzyć wszystkie pliki równolegle.
Uwaga / Notatka
Tylko łączniki dla usługi Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder i Azure Blob Storage emitują prawidłowy skrypt do używania partycjonowanych obliczeń. Łącznik dla programu SharePoint nie obsługuje go obecnie.
Jak ustawić partycjonowane obliczenia
Aby móc korzystać z tej funkcji, musisz:
Włączanie ustawień przepływu danych
Na karcie Narzędzia główne na wstążce wybierz przycisk Opcje , aby wyświetlić okno dialogowe. Przejdź do sekcji Skalowanie i włącz ustawienie zezwalające na używanie partycjonowanych zasobów obliczeniowych.
Włączenie tej opcji ma dwa cele:
Umożliwia użycie partycjonowanych obliczeń w Dataflow, jeśli zostaną wykryte poprzez skrypty zapytań
Doświadczenia, takie jak łączenie plików, będą teraz automatycznie tworzyć klucze partycji, których można używać do obliczeń partycjonowanych.
Należy również włączyć ustawienie w sekcji Prywatność, aby zezwolić na łączenie danych z wielu źródeł.
Wykonywanie zapytań przy użyciu klucza partycji
Uwaga / Notatka
Aby używać partycjonowanych obliczeń, upewnij się, że zapytanie jest ustawione na etapy.
Po włączeniu tego ustawienia możesz użyć środowiska łączenia plików dla źródła danych korzystającego z widoku systemu plików, takiego jak Azure Data Lake Storage Gen2. Po zakończeniu procesu łączenia plików zauważysz, że zapytanie ma krok Dodano niestandardowy, który ma skrypt podobny do następującego:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Ten skrypt, a w szczególności składnik withPartitionKey, określa logikę sposobu, w jaki Dataflow próbuje dzielić dane na partycje i jak próbuje oceniać elementy równolegle.
Możesz użyć funkcji Table.PartitionKey względem kroku Dodany niestandardowy. Ta funkcja zwraca klucz partycji określonej tabeli. W powyższym przypadku jest to kolumna RelativePath. Możesz uzyskać odrębną listę wartości w tej kolumnie, aby zrozumieć wszystkie partycje, które będą używane podczas uruchamiania przepływu danych.
Ważne
Ważne jest, aby kolumna klucza partycji pozostała w zapytaniu w celu zastosowania partycjonowanych zasobów obliczeniowych.
Zagadnienia i zalecenia
W przypadku scenariuszy, w których źródło danych nie obsługuje składania przekształceń dla plików, zaleca się wybranie partycjonowanych zasobów obliczeniowych zamiast szybkiej kopii.
Aby uzyskać najlepszą wydajność, użyj tej metody, aby załadować dane bezpośrednio do staging jako miejsce docelowe lub do magazynu Fabric.
Użyj przykładowego pliku przekształcania ze środowiska Łączenia plików , aby wprowadzić przekształcenia, które powinny wystąpić w każdym pliku.
Partycjonowane obliczenia obsługują tylko podzestaw przekształceń. Wydajność może się różnić w zależności od źródła i zestawu użytych przekształceń.
Rozliczanie przepływu danych jest oparte na zużyciu jednostek wydajności (CU).