Freigeben über


Lakehousetutorial: Erfassen von Daten im Lakehouse

In diesem Tutorial erfassen Sie weitere Dimensions- und Faktentabellen aus den Wide World Importers (WWI) im Lakehouse.

Voraussetzungen

  • Wenn Sie kein Lakehouse haben, müssen Sie ein Lakehouse erstellen.

Erfassen von Daten

In diesem Abschnitt verwenden Sie die Aktivität Daten kopieren der Data Factory-Pipeline, um Beispieldaten aus einem Azure-Speicherkonto im Abschnitt Dateien des zuvor erstellten Lakehouse zu erfassen.

  1. Wählen Sie im linken Navigationsbereich Arbeitsbereiche aus, und wählen Sie dann Ihren neuen Arbeitsbereich aus dem Menü Arbeitsbereiche aus. Die Elementansicht Ihres Arbeitsbereichs wird angezeigt.

  2. Wählen Sie im Arbeitsbereichsmenüband in der Option "Neues Element " die Option "Pipeline" aus.

  3. Geben Sie im Dialogfeld Neue Pipeline den Namen IngestDataFromSourceToLakehouse ein, und wählen Sie Erstellen aus.

  4. Wählen Sie in der neu erstellten Pipeline die Pipelineaktivität aus, um der Pipeline eine Aktivität hinzuzufügen, und wählen Sie "Daten kopieren" aus. Diese Aktion fügt der Pipeline-Canvas Kopierdatenaktivitäten hinzu.

    Screenshot, der zeigt, wo Pipelineaktivitäten ausgewählt und Daten kopiert werden sollen.

  5. Wählen Sie die neu hinzugefügte Kopierdatenaktivität aus dem Zeichenbereich aus. Aktivitätseigenschaften werden in einem Bereich unterhalb des Zeichenbereichs angezeigt (Möglicherweise müssen Sie den Bereich nach oben erweitern, indem Sie den oberen Rand ziehen). Geben Sie auf der Registerkarte " Allgemein " im Eigenschaftenbereich " Data Copy to Lakehouse " im Feld "Name " ein. Behalten Sie die verbleibenden Eigenschaften bei ihren Standardwerten bei.

    Screenshot, der zeigt, wo der Name der Kopieraktivität auf der Registerkarte

  6. Öffnen Sie auf der Registerkarte " Quelle " der ausgewählten Kopierdatenaktivität das Feld "Verbindung" , und wählen Sie "Alle durchsuchen" aus. Wählen Sie das Datenquellenfenster aus, suchen Sie, und wählen Sie Azure-Blobs aus. In diesem Lernprogramm sind alle Beispieldaten in einem öffentlichen Container von Azure Blob Storage verfügbar. Sie stellen eine Verbindung mit diesem Container her, um Daten daraus zu kopieren.

  7. Geben Sie die folgenden Details im Fenster "Verbindungseinstellungen " ein, und wählen Sie "Verbinden" aus, um die Verbindung mit der Datenquelle zu erstellen.

    Eigenschaft Wert
    Kontoname oder URL https://fabrictutorialdata.blob.core.windows.net/sampledata/
    Verbindung Neue Verbindung erstellen
    Verbindungsname wwisampledata
    Authentifizierungsart Anonym

    Screenshot, der zeigt, wo die Blob-Speicherverbindung ausgewählt werden soll.

  8. Nachdem die neue Verbindung erstellt wurde, kehren Sie zur Registerkarte " Quelle " der Kopierdatenaktivität zurück, und die neu erstellte Verbindung ist standardmäßig ausgewählt. Geben Sie die folgenden Eigenschaften an, bevor Sie zu den Zieleinstellungen wechseln.

    Eigenschaft Wert
    Verbindung wwisampledata
    Dateipfadtyp Dateipfad
    Dateipfad Containername (erstes Textfeld): Sampledata
    Verzeichnisname (zweites Textfeld): WideWorldImportersDW/Parkett
    Rekursiv Geprüft
    Dateiformat Binary

    Screenshot der Blob Storage-Verbindungseinstellungen.

  9. Geben Sie auf der Registerkarte "Ziel " der ausgewählten Kopierdatenaktivität die folgenden Eigenschaften an:

    Eigenschaft Wert
    Verbindung wwilakehouse (wählen Sie Ihr Seehaus aus, wenn Sie es anders benannt haben)
    Stammordner Dateien
    Dateipfad Verzeichnisname (erstes Textfeld): wwi-raw-data
    Dateiformat Binary

    Screenshot der Registerkarte

  10. Sie haben die Kopierdatenaktivität konfiguriert. Wählen Sie das Symbol " Speichern " im oberen Menüband (unter "Start") aus, um Ihre Änderungen zu speichern, und wählen Sie "Ausführen" aus, um Ihre Pipeline und deren Aktivität auszuführen. Sie können auch Pipelines planen, um Daten in definierten Intervallen zu aktualisieren, um Ihre Geschäftlichen Anforderungen zu erfüllen. In diesem Lernprogramm führen wir die Pipeline nur einmal aus, indem wir "Ausführen" auswählen.

  11. Diese Aktion löst die Datenkopie aus der zugrunde liegenden Datenquelle in das angegebene Lakehouse aus und kann bis zu einer Minute dauern. Sie können die Ausführung der Pipeline und deren Aktivität auf der Registerkarte " Ausgabe " überwachen. Der Aktivitätsstatus ändert sich von "In Warteschlange>erfolgreich>".

    Screenshot, der zeigt, wo Sie „Speichern“ und „Pipeline ausführen“ auswählen können.

  12. Nachdem die Kopieraktivität erfolgreich war, öffnen Sie Ihr Seehaus (wwilakehouse), um die Daten anzuzeigen. Aktualisieren Sie den Abschnitt "Dateien ", um die aufgenommenen Daten anzuzeigen. Im Abschnitt "Dateien" wird ein neuer Ordner mit Unformatierten Daten angezeigt, und Daten aus Azure Blob-Tabellen werden dort kopiert.

    Screenshot, das Blob-Daten zeigt, die in das Ziel-Lakehouse kopiert wurden.

Nächster Schritt