Freigeben über


Erfassen von Daten in OneLake und Analysieren mit Azure Databricks

In diesem Leitfaden werden Sie:

  • Erstellen einer Pipeline in einem Arbeitsbereich und Erfassen von Daten in OneLake im Delta-Format

  • Lesen und Ändern einer Delta-Tabelle in OneLake mit Azure Databricks

Voraussetzungen

Bevor Sie beginnen können, benötigen Sie Folgendes:

  • Ein Arbeitsbereich mit einem Lakehouse-Element.

  • Ein Azure Databricks-Premium-Arbeitsbereich. Nur Azure Databricks-Premium-Arbeitsbereiche unterstützen das Microsoft Entra Passthrough. Aktivieren Sie beim Erstellen Ihres Clusters unter Erweiterte Optionen das Passthrough für Anmeldeinformationen in Azure Data Lake Storage.

  • Ein Beispieldataset

Erfassen von Daten und Ändern der Delta-Tabelle

  1. Navigieren Sie zu Ihrem Lakehouse im Power BI-Dienst, und wählen Sie Daten abrufen und anschließend Neue Pipeline aus.

    Screenshot, der zeigt, wie Sie in der Benutzeroberfläche zu einer neuen Pipelineoption navigieren.

  2. Geben Sie in der Eingabeaufforderung Neue Pipeline einen Namen für die neue Pipeline ein, und wählen Sie dann Erstellen aus.

  3. Wählen Sie für diese Übung den NYC Taxi - Grün Beispieldatensatz als Datenquelle aus.

    Screenshot: Auswählen des NYC-Beispielsemantikmodells.

  4. Wählen Sie auf dem Vorschaubildschirm erneut Weiter aus.

  5. Wählen Sie als Datenziel den Namen des Lakehouse aus, das zum Speichern der OneLake-Delta-Tabellendaten verwendet werden soll. Sie können ein vorhandenes Lakehouse auswählen oder ein neues erstellen.

    Screenshot: Auswählen eines Lakehouse als Ziel

  6. Wählen Sie aus, wo die Ausgabe gespeichert werden soll. Wählen Sie "Tabellen " als Stammordner aus. Geben Sie "nycsample" als Tabellennamen ein, und wählen Sie "Weiter" aus.

  7. Wählen Sie auf dem Bildschirm Überprüfen + Speichern die Option Datenübertragung sofort starten und dann Speichern + Ausführen aus.

    Screenshot: Eingabe des Tabellennamens

  8. Wenn der Auftrag abgeschlossen ist, navigieren Sie zu Ihrem Lakehouse, und sehen Sie sich die Delta-Tabelle unter dem Ordner „/Tables“ an.

  9. Klicken Sie mit der rechten Maustaste auf den Tabellennamen, wählen Sie Eigenschaften aus und kopieren Sie den Pfad für das Azure Blob Filesystem (ABFS).

  10. Öffnen Sie Ihr Azure Databricks-Notebook. Lesen Sie die Delta-Tabelle in OneLake.

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. Aktualisieren Sie die Delta-Tabellendaten, indem Sie einen Feldwert ändern.

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;