Freigeben über


Verwenden von partitionierter Compute in Dataflow Gen2 (Vorschau)

Hinweis

Der partitionierte Compute befindet sich derzeit in der Vorschau und ist nur in Dataflow Gen2 mit CI/CD verfügbar.

Die partitionierte Berechnung ist eine Funktion des Dataflow Gen2-Moduls, mit dem Teile Der Datenflusslogik parallel ausgeführt werden können, wodurch die Zeit zum Abschließen der Auswertungen reduziert wird.

Partitionierte Computeziele für Szenarien, in denen das Dataflow-Modul Vorgänge effizient falten kann, die die Datenquelle partitionieren und jede Partition parallel verarbeiten können. Beispielsweise können Sie in einem Szenario, in dem Sie eine Verbindung mit mehreren Dateien herstellen, die in einer Azure Data Lake Storage Gen2 gespeichert sind, die Liste der Dateien aus Ihrer Quelle partitionieren, die partitionierte Liste der Dateien mithilfe der Abfragefaltung effizient abrufen, die Erfahrung der Kombinieren von Dateien verwenden und alle Dateien parallel verarbeiten.

Hinweis

Nur Connectors für Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder und Azure Blob Storage geben das richtige Skript aus, um partitionierte Rechenressourcen zu verwenden. Der Connector für SharePoint unterstützt ihn heute nicht.

So richten Sie partitionierte Rechenressourcen ein

Um diese Funktion verwenden zu können, müssen Sie:

Aktivieren von Dataflow-Einstellungen

Wählen Sie auf der Registerkarte "Start" des Menübands die Schaltfläche "Optionen " aus, um dessen Dialogfeld anzuzeigen. Navigieren Sie zum Abschnitt "Skalierung", und aktivieren Sie die Einstellung, die die Verwendung der partitionierten Berechnung zulässt.

Screenshot der partitionierten Recheneinstellungen im Skalierungsabschnitt des Optionsdialogfelds.

Das Aktivieren dieser Option hat zwei Zwecke:

  • Ermöglicht es Ihrem Dataflow, partitionierte Rechenleistung zu nutzen, wenn diese durch Ihr Abfrageskript entdeckt wird.

  • Erfahrungen wie das Kombinieren von Dateien erstellen jetzt automatisch Partitionsschlüssel, die für partitioniertes Computing verwendet werden können

Außerdem müssen Sie die Einstellung im Abschnitt "Datenschutz " aktivieren, um das Kombinieren von Daten aus mehreren Quellen zuzulassen.

Abfrage mit Partitionsschlüssel

Hinweis

Um partitioniertes Rechnen zu verwenden, stellen Sie sicher, dass die Abfrage zur Ausführung bereitgestellt ist.

Nachdem Sie die Einstellung aktiviert haben, können Sie die Oberfläche für die Kombination von Dateien für eine Datenquelle verwenden, die die Dateisystemansicht verwendet, z. B. Azure Data Lake Storage Gen2. Wenn die Dateikombination abgeschlossen ist, stellen Sie fest, dass Ihre Abfrage einen benutzerdefinierten Schritt hinzugefügt hat, der einem Skript ähnlich ist:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Dieses Skript und insbesondere die withPartitionKey Komponente steuert die Logik, wie Ihr Dataflow versucht, Ihre Daten zu partitionieren und wie versucht wird, Dinge parallel auszuwerten.

Sie können die Table.PartitionKey-Funktion für den hinzugefügten benutzerdefinierten Schritt verwenden. Diese Funktion gibt den Partitionsschlüssel der angegebenen Tabelle zurück. Für den obigen Fall ist es die Spalte RelativePath. Sie können eine eindeutige Liste der Werte in dieser Spalte abrufen, um alle Partitionen zu verstehen, die während der Datenflussausführung verwendet werden.

Von Bedeutung

Es ist wichtig, dass die Partitionsschlüsselspalte in der Abfrage verbleibt, damit partitionierte Compute angewendet werden kann.

Überlegungen und Empfehlungen

  • Für Szenarien, in denen Ihre Datenquelle das Falten der Transformationen für Ihre Dateien nicht unterstützt, empfiehlt es sich, partitionierte Datenverarbeitung statt schnellem Kopieren zu wählen.

  • Um eine optimale Leistung zu erzielen, verwenden Sie diese Methode, um Daten direkt in das Staging als Ziel oder in ein Fabric Warehouse zu laden.

  • Verwenden Sie die Beispieltransformationsdatei aus der Oberfläche "Dateien kombinieren", um Transformationen einzuführen, die in jeder Datei durchgeführt werden sollen.

  • Partitionierte Berechnungen unterstützen nur eine Teilmenge von Transformationsmodi. Die Leistung kann je nach Quelle und verwendeten Transformationen variieren.

  • Die Abrechnung für den Datenflusslauf basiert auf dem Verbrauch der Kapazitätseinheit (CU).