Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Der partitionierte Compute befindet sich derzeit in der Vorschau und ist nur in Dataflow Gen2 mit CI/CD verfügbar.
Die partitionierte Berechnung ist eine Funktion des Dataflow Gen2-Moduls, mit dem Teile Der Datenflusslogik parallel ausgeführt werden können, wodurch die Zeit zum Abschließen der Auswertungen reduziert wird.
Partitionierte Computeziele für Szenarien, in denen das Dataflow-Modul Vorgänge effizient falten kann, die die Datenquelle partitionieren und jede Partition parallel verarbeiten können. Beispielsweise können Sie in einem Szenario, in dem Sie eine Verbindung mit mehreren Dateien herstellen, die in einer Azure Data Lake Storage Gen2 gespeichert sind, die Liste der Dateien aus Ihrer Quelle partitionieren, die partitionierte Liste der Dateien mithilfe der Abfragefaltung effizient abrufen, die Erfahrung der Kombinieren von Dateien verwenden und alle Dateien parallel verarbeiten.
Hinweis
Nur Connectors für Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder und Azure Blob Storage geben das richtige Skript aus, um partitionierte Rechenressourcen zu verwenden. Der Connector für SharePoint unterstützt ihn heute nicht.
So richten Sie partitionierte Rechenressourcen ein
Um diese Funktion verwenden zu können, müssen Sie:
Aktivieren von Dataflow-Einstellungen
Wählen Sie auf der Registerkarte "Start" des Menübands die Schaltfläche "Optionen " aus, um dessen Dialogfeld anzuzeigen. Navigieren Sie zum Abschnitt "Skalierung", und aktivieren Sie die Einstellung, die die Verwendung der partitionierten Berechnung zulässt.
Das Aktivieren dieser Option hat zwei Zwecke:
Ermöglicht es Ihrem Dataflow, partitionierte Rechenleistung zu nutzen, wenn diese durch Ihr Abfrageskript entdeckt wird.
Erfahrungen wie das Kombinieren von Dateien erstellen jetzt automatisch Partitionsschlüssel, die für partitioniertes Computing verwendet werden können
Außerdem müssen Sie die Einstellung im Abschnitt "Datenschutz " aktivieren, um das Kombinieren von Daten aus mehreren Quellen zuzulassen.
Abfrage mit Partitionsschlüssel
Hinweis
Um partitioniertes Rechnen zu verwenden, stellen Sie sicher, dass die Abfrage zur Ausführung bereitgestellt ist.
Nachdem Sie die Einstellung aktiviert haben, können Sie die Oberfläche für die Kombination von Dateien für eine Datenquelle verwenden, die die Dateisystemansicht verwendet, z. B. Azure Data Lake Storage Gen2. Wenn die Dateikombination abgeschlossen ist, stellen Sie fest, dass Ihre Abfrage einen benutzerdefinierten Schritt hinzugefügt hat, der einem Skript ähnlich ist:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Dieses Skript und insbesondere die withPartitionKey Komponente steuert die Logik, wie Ihr Dataflow versucht, Ihre Daten zu partitionieren und wie versucht wird, Dinge parallel auszuwerten.
Sie können die Table.PartitionKey-Funktion für den hinzugefügten benutzerdefinierten Schritt verwenden. Diese Funktion gibt den Partitionsschlüssel der angegebenen Tabelle zurück. Für den obigen Fall ist es die Spalte RelativePath. Sie können eine eindeutige Liste der Werte in dieser Spalte abrufen, um alle Partitionen zu verstehen, die während der Datenflussausführung verwendet werden.
Von Bedeutung
Es ist wichtig, dass die Partitionsschlüsselspalte in der Abfrage verbleibt, damit partitionierte Compute angewendet werden kann.
Überlegungen und Empfehlungen
Für Szenarien, in denen Ihre Datenquelle das Falten der Transformationen für Ihre Dateien nicht unterstützt, empfiehlt es sich, partitionierte Datenverarbeitung statt schnellem Kopieren zu wählen.
Um eine optimale Leistung zu erzielen, verwenden Sie diese Methode, um Daten direkt in das Staging als Ziel oder in ein Fabric Warehouse zu laden.
Verwenden Sie die Beispieltransformationsdatei aus der Oberfläche "Dateien kombinieren", um Transformationen einzuführen, die in jeder Datei durchgeführt werden sollen.
Partitionierte Berechnungen unterstützen nur eine Teilmenge von Transformationsmodi. Die Leistung kann je nach Quelle und verwendeten Transformationen variieren.
Die Abrechnung für den Datenflusslauf basiert auf dem Verbrauch der Kapazitätseinheit (CU).