Freigeben über


Schnellstart: Erstellen einer Lösung zum Verschieben und Transformieren von Daten

In dieser Schnellstartanleitung erfahren Sie, wie Datenflüsse und Pipelines zusammenarbeiten, um eine leistungsstarke Data Factory-Lösung zu erstellen. Sie bereinigen Daten mithilfe von Datenflüssen und übertragen sie mit Pipelines.

Voraussetzungen

Bevor Sie beginnen, benötigen Sie Folgendes:

Vergleichen von Datenflüssen und Pipelines

Dataflow Gen2 bietet eine Low-Code-Schnittstelle mit mehr als 300 Daten und KI-basierten Transformationen. Sie können Daten ganz einfach bereinigen, vorbereiten und mit Flexibilität transformieren. Pipelines bieten umfangreiche Funktionen zur Daten-Orchestrierung, um flexible Datenworkflows zu erstellen, die Ihren Unternehmensanforderungen entsprechen.

In einer Pipeline können Sie logische Gruppierungen von Aktivitäten erstellen, die eine Aufgabe ausführen. Dies kann das Aufrufen eines Datenflusses umfassen, um Ihre Daten zu bereinigen und zu präpieren. Während zwischen den beiden Funktionen einige Funktionen überlappen, hängt Ihre Wahl davon ab, ob Sie die vollständigen Funktionen von Pipelines benötigen oder die einfacheren Funktionen von Datenflüssen verwenden können. Weitere Informationen finden Sie im Fabric-Entscheidungshandbuch.

Transformieren von Daten mit Datenflüssen

Führen Sie die folgenden Schritte aus, um ihren Datenfluss einzurichten.

Erstellen eines Dataflows

  1. Wählen Sie ihren Fabric-aktivierten Arbeitsbereich und dann "Neu" und dann "Dataflow Gen2" aus.

    Screenshot des Startens eines Dataflow Gen2.

  2. Wählen Sie im Datenfluss-Editor die Option "Aus SQL Server importieren" aus.

    Screenshot des Datenfluss-Editors.

Daten abrufen

  1. Geben Sie im Dialogfeld "Mit Datenquelle verbinden " Ihre Azure SQL-Datenbankdetails ein, und wählen Sie "Weiter" aus. Verwenden Sie die AdventureWorksLT-Beispieldatenbank aus den Voraussetzungen.

    Screenshot der Verbindung mit einer Azure SQL-Datenbank.

  2. Wählen Sie die zu transformierenden Daten aus, z. B. SalesLT.Customer, und verwenden Sie "Verwandte Tabellen auswählen", um verwandte Tabellen einzuschließen. Wählen Sie dann "Erstellen" aus.

    Screenshot der Auswahl von zu transformierenden Daten.

Transformieren Ihrer Daten

  1. Wählen Sie in der Statusleiste oder im Power Query-Editor die Diagrammansicht aus.

    Screenshot der Auswahl der Diagrammansicht.

  2. Wählen Sie ihre SalesLT-Kundenabfrage mit der rechten Maustaste aus, oder wählen Sie die vertikalen Auslassungspunkte rechts neben der Abfrage aus, und wählen Sie dann "Abfragen zusammenführen" aus.

    Screenshot der Option

  3. Konfigurieren Sie die Zusammenführung mit SalesLTOrderHeader als rechte Tabelle, CustomerID als Verknüpfungsspalte und Left outer als Verknüpfungstyp. Wählen Sie OK aus.

    Screenshot: Bildschirm für die Zusammenführungskonfiguration

  4. Fügen Sie ein Datenziel hinzu, indem Sie das Datenbanksymbol mit einem Pfeil auswählen. Wählen Sie azure SQL-Datenbank als Zieltyp aus.

    Screenshot der Schaltfläche

  5. Geben Sie die Details für Ihre Azure SQL-Datenbankverbindung an, bei der die Merge-Abfrage veröffentlicht werden soll. In diesem Beispiel verwenden wir auch die AdventureWorksLT-Datenbank , die wir als Datenquelle für das Ziel verwendet haben.

    Screenshot des Dialogfelds

  6. Wählen Sie eine Datenbank aus, um die Daten zu speichern, und geben Sie einen Tabellennamen ein, und wählen Sie dann Nextaus.

    Screenshot des Fensters 'Ziel wählen'.

  7. Übernehmen Sie die Standardeinstellungen im Dialogfeld " Zieleinstellungen auswählen ", und wählen Sie " Einstellungen speichern" aus.

    Screenshot des Dialogfelds

  8. Wählen Sie " Veröffentlichen" im Dataflow-Editor aus, um den Datenfluss zu veröffentlichen.

    Screenshot, der die Schaltfläche

Verschieben von Daten mit Pipelines

Nachdem Sie nun ein Dataflow Gen2 erstellt haben, können Sie es in einer Pipeline verwenden. In diesem Beispiel kopieren Sie die aus dem Datenfluss generierten Daten in ein Textformat in ein Azure Blob Storage-Konto.

Erstellen einer neuen Pipeline

  1. Wählen Sie in Ihrem Arbeitsbereich "Neu" und dann "Pipeline" aus.

    Screenshot des Erstellens einer neuen Pipeline.

  2. Benennen Sie Ihre Pipeline, und wählen Sie "Erstellen" aus.

    Screenshot mit der Aufforderung zur neuen Pipelineerstellung mit einem Beispielpipelinenamen.

Konfigurieren des Datenflusses

  1. Fügen Sie Ihrer Pipeline eine Datenflussaktivität hinzu, indem Sie auf der Registerkarte "Aktivitäten" die Option "Datenfluss" auswählen.

    Screenshot des Hinzufügens einer Datenflussaktivität.

  2. Wählen Sie den Datenfluss auf dem Pipeline-Zeichenbereich aus, wechseln Sie zur Registerkarte "Einstellungen ", und wählen Sie den zuvor erstellten Datenfluss aus.

    Screenshot der Auswahl eines Datenflusses.

  3. Wählen Sie "Speichern" und dann "Ausführen" aus, um die zusammengeführte Abfragetabelle aufzufüllen.

    Screenshot, der zeigt, wo

Hinzufügen einer Copy-Aktivität

  1. Wählen Sie "Daten auf der Canvas kopieren " aus, oder verwenden Sie den Kopier-Assistenten auf der Registerkarte "Aktivitäten ".

    Screenshot mit den beiden Möglichkeiten für den Zugriff auf den Kopier-Assistenten.

  2. Wählen Sie Azure SQL-Datenbank als Datenquelle und dann "Weiter" aus.

    Screenshot, der zeigt, wo eine Datenquelle ausgewählt werden soll.

  3. Erstellen Sie eine Verbindung mit Ihrer Datenquelle, indem Sie Neue Verbindung erstellenauswählen. Geben Sie im Panel die erforderlichen Verbindungsinformationen ein, und geben Sie für die Datenbank AdventureWorksLT ein, in der die Zusammenführungsabfrage im Dataflow generiert wurde. Wählen Sie dann Weiteraus.

    Screenshot, der zeigt, wo eine neue Verbindung erstellt werden soll.

  4. Wählen Sie die Tabelle aus, die Sie zuvor im Datenflussschritt generiert haben, und wählen Sie dann Weiteraus.

    Screenshot, der zeigt, wie aus verfügbaren Tabellen ausgewählt wird.

  5. Wählen Sie für Ihr Ziel Azure Blob Storage und dann Nextaus.

    Screenshot: Ziel für Azure Blob Storage-Daten

  6. Erstellen Sie eine Verbindung mit Ihrem Ziel, indem Sie Neue Verbindung erstellenauswählen. Geben Sie die Details für Ihre Verbindung an, und wählen Sie dann Weiteraus.

    Screenshot, der zeigt, wie eine Verbindung erstellt wird.

  7. Wählen Sie Ihren Ordnerpfad aus, geben Sie einen Dateinamen an, und wählen Sie dann Weiter aus.

    Screenshot, der zeigt, wie Ordnerpfad und Dateiname ausgewählt werden.

  8. Wählen Sie "Weiter" aus, um das Standarddateiformat, Spaltentrennzeichen, Zeilentrennzeichen und Komprimierungstyp zu übernehmen, optional auch eine Kopfzeile.

    Screenshot mit den Konfigurationsoptionen für die Datei in Azure Blob Storage.

  9. Schließen Sie Ihre Einstellungen ab. Überprüfen Und wählen Sie dann Speichern + ausführen aus, um den Vorgang abzuschließen.

    Screenshot, der zeigt, wie Kopierdateneinstellungen überprüft werden.

Planen Sie Ihre Pipeline und speichern Sie, um Daten auszuführen und zu laden.

  1. Um die Copy-Aktivität nach der Dataflow-Aktivität auszuführen, ziehen Sie von Erfolgreich über die Dataflow-Aktivität zur Copy-Aktivität. Die Copy-Aktivität wird erst ausgeführt, nachdem die Dataflow-Aktivität erfolgreich war.

    Screenshot, der zeigt, wie der Datenfluss nach der Kopieraktivität ausgeführt wird.

  2. Wählen Sie "Speichern" aus, um Ihre Pipeline zu speichern. Wählen Sie dann "Ausführen" aus, um Die Pipeline auszuführen und Die Daten zu laden.

    Screenshot, der zeigt, wo

Planen der Pipelineausführung

Nachdem Sie die Entwicklung und das Testen Der Pipeline abgeschlossen haben, können Sie die Ausführung automatisch planen.

  1. Wählen Sie im Fenster des Pipeline-Editors auf der Registerkarte Start die Option Zeitplan aus.

    Screenshot der Schaltfläche

  2. Konfigurieren Sie den Zeitplan nach Bedarf. Im folgenden Beispiel wird die Pipeline so geplant, dass sie täglich um 20:00 Uhr bis zum Ende des Jahres ausgeführt wird.

    Screenshot: Konfiguration des Zeitplans für eine Pipeline, die bis zum Ende des Jahres täglich um 20:00 Uhr ausgeführt wird

In diesem Beispiel erfahren Sie, wie Sie einen Dataflow Gen2 erstellen und konfigurieren, um eine Merge-Abfrage zu erstellen und in einer Azure SQL-Datenbank zu speichern, und wie Sie anschließend Daten aus der Datenbank in eine Textdatei in Azure Blob Storage kopieren. Sie haben gelernt, wie Sie:

  • Erstellen Sie einen Datenfluss.
  • Transformieren von Daten mit dem Datenfluss.
  • Erstellen Sie eine Pipeline mithilfe des Datenflusses.
  • Ordnen Sie die Ausführung der Schritte in der Pipeline an.
  • Kopieren Von Daten mit dem Kopier-Assistenten.
  • Führen Sie Ihre Pipeline aus, und planen Sie sie.

Erfahren Sie im nächsten Schritt mehr über die Überwachung Ihrer Pipelineausführungen.