Freigeben über


Schnelle Kopie in Dataflow Gen2

Schnelle Kopie hilft Ihnen, große Datenmengen schneller in Dataflow Gen2 zu verschieben. Stellen Sie sich vor, Sie wechseln zu einem leistungsstärkeren Motor, wenn Sie Terabytes an Daten verarbeiten müssen.

Wenn Sie mit Datenflüssen arbeiten, müssen Sie zuerst Daten aufnehmen und dann transformieren. Mit dem Datenfluss-Scale-Out unter Verwendung von SQL DW Compute können Sie Daten in großem Maßstab transformieren. Fast Copy kümmert sich um den Aufnahmeteil und bietet Ihnen ein einfaches Datenfluss-Erlebnis mit dem leistungsstarken Back-End der Pipeline-Kopieraktivität.

So funktioniert es: Nachdem Sie schnelle Kopie aktiviert haben, wechseln Datenflüsse automatisch zum schnelleren Back-End, wenn Ihre Datengröße einen bestimmten Schwellenwert überschreitet. Sie müssen nichts ändern, während Sie Ihre Datenflüsse erstellen. Nach der Aktualisierung des Datenflusses können Sie den Aktualisierungsverlauf prüfen, um festzustellen, ob ein schneller Kopiervorgang verwendet wurde, indem Sie den dort aufgeführten Engine-Typ betrachten.

Wenn Sie die Option " Schnelle Kopie anfordern " aktivieren, wird die Datenflussaktualisierung beendet, wenn schnelle Kopie aus irgendeinem Grund nicht verwendet werden kann. Auf diese Weise können Sie vermeiden, auf ein Timeout zu warten, was beim Debuggen hilfreich ist. Sie können die Indikatoren für schnelle Kopie im Abfrageschrittbereich verwenden, um zu überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.

Screenshot, der zeigt, wo der Schnellkopieindikator im Abfrageschrittbereich angezeigt wird.

Prerequisites

Bevor Sie schnelle Kopie verwenden können, benötigen Sie Folgendes:

  • Eine Fabric-Kapazität
  • Für Dateidaten: CSV- oder Parkettdateien, die mindestens 100 MB sind und in Azure Data Lake Storage (ADLS) Gen2 oder Blob Storage gespeichert sind
  • Für Datenbanken (einschließlich Azure SQL DB und PostgreSQL): 5 Millionen Zeilen oder mehr Daten in der Datenquelle

Note

Sie können den Schwellenwert umgehen, um schnelle Kopie zu erzwingen, indem Sie die Einstellung "Schnelle Kopie anfordern" auswählen.

Connectorunterstützung

Schnelle Kopie funktioniert mit diesen Dataflow Gen2-Connectors:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL-Datenbank
  • Lakehouse
  • PostgreSQL
  • Lokale SQL Server-Instanz
  • Warehouse
  • Oracle
  • Snowflake
  • SQL-Datenbank in Fabric

Transformationseinschränkungen

Beim Verbinden mit Dateiquellen unterstützt die Kopieraktivität nur diese Transformationen:

  • Kombinieren von Dateien
  • Spalten auswählen
  • Datentypen ändern
  • Umbenennen einer Spalte
  • Entfernen einer Spalte

Wenn Sie andere Transformationen benötigen, können Sie Ihre Arbeit in separate Abfragen aufteilen. Erstellen Sie eine Abfrage, um die Daten und eine andere Abfrage abzurufen, die auf die erste Abfrage verweist. So können Sie DW Compute für die Transformationen verwenden.

Bei SQL-Quellen funktioniert jede Transformation, die Teil der systemeigenen Abfrage ist, einwandfrei.

Ausgabeziele

Zurzeit unterstützt Fast Copy nur das direkte Laden in ein Lakehouse-Ziel. Wenn Sie ein anderes Ausgabeziel verwenden möchten, können Sie die Abfrage zuerst vorbereiten und sie in einer späteren Abfrage mit Ihrem bevorzugten Ziel verwenden.

So verwenden Sie die Schnellkopie

Hier erfahren Sie, wie Sie schnelle Kopien einrichten und verwenden:

  1. Wechseln Sie in Fabric zu einem Premium-Arbeitsbereich, und erstellen Sie einen Dataflow Gen2.

  2. Wählen Sie auf der Registerkarte " Start " des neuen Datenflusses "Optionen" aus:

    Screenshot, der zeigt, wo die Optionen für Dataflow Gen2 auf der Registerkarte

  3. Wählen Sie im Dialogfeld "Optionen " die Registerkarte " Skalierung " aus, und aktivieren Sie dann die Option "Verwendung von Schnellkopierkonnektoren zulassen". Schließen Sie das Dialogfeld "Optionen ", wenn Sie fertig sind.

    Der Screenshot zeigt, wo die Schnellkopie auf der Registerkarte „Skalieren“ des Dialogs „Optionen“ aktiviert werden kann.

  4. Wählen Sie "Daten abrufen", wählen Sie die ADLS Gen2-Quelle aus, und geben Sie die Details für Ihren Container ein.

  5. Wählen Sie die Schaltfläche "Kombinieren" aus .

    Der Screenshot zeigt das Datenfenster des Vorschauordners mit der hervorgehobenen Option „Kombinieren“.

  6. Um sicherzustellen, dass schnelle Kopie funktioniert, wenden Sie nur Transformationen an, die im Connector-Supportabschnitt aufgeführt sind. Wenn Sie andere Transformationen benötigen, stellen Sie die Daten zuerst fest, und verweisen Sie in einer späteren Abfrage auf die mehrstufige Abfrage. Wenden Sie ihre anderen Transformationen auf die referenzierte Abfrage an.

  7. (Optional) Sie können eine schnelle Kopie für die Abfrage benötigen, indem Sie mit der rechten Maustaste auf die Abfrage klicken und "Schnelle Kopie anfordern" auswählen.

    Screenshot zeigt, wo die Option Schnellkopie anfordern im Rechtsklickmenü für eine Abfrage ausgewählt werden kann.

  8. (Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel einrichten. Für jedes andere Ziel stellen Sie die Abfrage bereit und verweisen Sie später in einer anderen Abfrage darauf, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.

  9. Überprüfen Sie die Indikatoren für schnelle Kopien, um sicherzustellen, dass Ihre Abfrage mit Fast Copy laufen kann. Wenn es möglich ist, zeigt der Engine-Typ die CopyActivity an.

    Screenshot: Aktualisierungsdetails, die anzeigen, dass die Pipeline CopyActivity Engine verwendet wurde

  10. Veröffentlichen Sie den Dataflow.

  11. Überprüfen Sie nach Abschluss der Aktualisierung, ob die schnelle Kopie verwendet wurde.

So unterteilen Sie Ihre Anfrage, um den schnellen Kopiervorgang zu nutzen

Wenn Sie mit großen Datenmengen arbeiten, können Sie die beste Leistung erzielen, indem Sie zuerst schnelle Kopierverfahren verwenden, um Daten in eine Staging-Umgebung einzulesen, und sie dann mit SQL Data Warehouse-Compute in großem Maßstab transformieren.

Mithilfe von schnellen Kopierhinweisen können Sie herausfinden, wie Sie Ihre Abfrage in zwei Teile aufteilen: Die Datenaufnahme in die Staging-Umgebung und die groß angelegte Transformation mit SQL DW-Rechenleistung. Versuchen Sie, so viel Ihrer Abfrageauswertung wie möglich auf schnelle Kopiervorgänge zu übertragen, um die Datenaufnahme zu optimieren. Wenn die Indikatoren für schnelle Kopien anzeigen, dass die verbleibenden Schritte nicht mit schneller Kopie ausgeführt werden können, können Sie den Rest der Abfrage bei aktiviertem Staging aufteilen.

Schrittdiagnoseindikatoren

Indicator Icon Description
Dieser Schritt wird mit schnellem Kopiervorgang ausgewertet. Der Indikator für schnelle Kopie zeigt, dass die Abfrage bis zu diesem Schritt schnelle Kopie unterstützt.
Dieser Schritt wird vom Schnellkopieren nicht unterstützt. Die Schnellkopieanzeige zeigt, dass dieser Schritt keine schnelle Kopie unterstützt.
Mindestens ein Schritt in Ihrer Abfrage wird von einer Schnellkopie nicht unterstützt. Der Indikator für schnelle Kopie zeigt, dass einige Schritte in dieser Abfrage schnelle Kopie unterstützen, während andere nicht. Um die Abfrage zu optimieren, teilen Sie die Abfrage auf in: gelbe Schritte (möglicherweise durch eine schnelle Kopierfunktion unterstützt) und rote Schritte (nicht unterstützt).

Schrittweise Anleitung

Nachdem Sie die Datentransformationslogik in Dataflow Gen2 abgeschlossen haben, wertet der Indikator für schnelle Kopie jeden Schritt aus, um herauszufinden, wie viele Schritte schnelle Kopie für eine bessere Leistung verwenden können.

In diesem Beispiel zeigt der letzte Schritt ein rotes Symbol an, was bedeutet, dass " Gruppieren nach "-Schritten nicht von einer schnellen Kopie unterstützt wird. Alle vorherigen Schritte mit gelben Symbolen können jedoch potenziell durch schnelle Kopie unterstützt werden.

Screenshot mit dem Inhalt der ersten Abfrage, bei dem der letzte Schritt rot markiert ist.

Wenn Sie Ihre Dataflow Gen2 zu diesem Zeitpunkt veröffentlichen und ausführen, verwendet es nicht das Modul für schnelle Kopie, um Ihre Daten zu laden.

Screenshot, der das Ergebnis der Abfrage ohne aktivierte Schnellkopierfunktion anzeigt.

Um die schnelle Kopier-Engine zu verwenden und Ihre Dataflow Gen2-Leistung zu verbessern, können Sie Ihre Abfrage in zwei Teile aufteilen: Datenaufnahme in Staging und großflächige Transformation mit SQL DW Compute. Gehen Sie dabei folgendermaßen vor:

  1. Löschen Sie alle Transformationen mit roten Symbolen (was bedeutet, dass sie nicht durch schnelle Kopie unterstützt werden) zusammen mit dem Ziel (wenn Sie eins definiert haben).

    Screenshot der ersten Abfrage, in der Sie alle Schritte gelöscht haben, die keine schnelle Kopie unterstützen.

  2. Der Indikator für schnelle Kopie zeigt jetzt grün für die verbleibenden Schritte an, was bedeutet, dass Ihre erste Abfrage schnelle Kopie für eine bessere Leistung verwenden kann.

    Klicken Sie mit der rechten Maustaste auf Ihre erste Abfrage, wählen Sie " Staging aktivieren" aus, klicken Sie dann erneut mit der rechten Maustaste auf Ihre erste Abfrage, und wählen Sie "Verweis" aus.

    Screenshot: Die Auswahl, die erforderlich ist, um mit einer zweiten Abfrage auf Ihre Abfrage für Schnellkopieren zu verweisen.

  3. Fügen Sie in der neuen Abfrage, auf die verwiesen wird, die Transformation "Gruppieren nach" und gegebenenfalls das Ziel wieder hinzu.

  4. Veröffentlichen und aktualisieren Sie Ihren Dataflow Gen2. Sie haben jetzt zwei Abfragen in Ihrem Dataflow Gen2, und die Gesamtdauer ist kürzer.

    • Die erste Abfrage erfasst Daten mithilfe von Schnellkopie in Staging.

    • Die zweite Abfrage führt große Transformationen mithilfe der SQL DW-Berechnung durch.

      Screenshot der Details des Ausführungszustands mit den Ergebnissen der Abfrage.

    Die ersten Abfragedetails:

    Screenshot mit den Ergebnissen der Dateninjektion.

    Details zur zweiten Abfrage:

    Screenshot der Ergebnisse der Transformationsschritte.

Bekannte Einschränkungen

Hier sind die aktuellen Einschränkungen für schnelle Kopie:

  • Sie benötigen ein lokales Datengateway, Version 3000.214.2 oder höher, um schnelle Kopie zu unterstützen.
  • Festes Schema wird nicht unterstützt.
  • Schemabasiertes Ziel wird nicht unterstützt