共用方式為


使用 Azure Databricks 內嵌資料至 OneLake 並進行分析

在本指南中,您將會:

  • 在工作區建立管線並將資料以 Delta 格式內嵌到 OneLake。

  • 使用 Azure Databricks 讀取並修改 OneLake 中的 Delta 資料表。

必要條件

開始之前,確認您擁有:

  • 帶有 Lakehouse 項目的工作區。

  • 進階版 Azure Databricks 工作區。 只有進階版 Azure Databricks 工作區支援 Microsoft Entra 認證傳遞。 當建立叢集時,請在進階選項啟用 Azure Data Lake Storage 認證傳遞。

  • 範例資料集

內嵌資料並修改 Delta 資料表。

  1. 流覽至 Power BI 服務中的 Lakehouse,然後選取 [ 取得資料 ],然後選取 [新增管線]。

    螢幕擷取畫面顯示如何從 UI 內導覽至新的管線選項。

  2. 新增準管線提示字元中,輸入新增準管線的名稱,然後選取建立

  3. 在本練習中,選取 NYC Taxi - Green 範例資料作為資料來源。

    顯示如何選取 NYC 範例語意模型的螢幕擷取畫面。

  4. 在預覽畫面,選取 下一步

  5. 針對資料目的地,選取您想要用來儲存 OneLake Delta 資料表資料的 Lakehouse 名稱。 您可以選擇現有 Lakehouse 或新建一個。

    螢幕擷取畫面,顯示如何選取目的地。

  6. 選取您要儲存輸出的位置。 選擇 Tables 作為 根資料夾。 輸入「nycsample」作為資料表名稱,然後選取 下一步

  7. 檢閱 + 儲存畫面,確定已選取立即啟動資料傳輸選項,然後選取儲存 + 執行

    顯示如何輸入表格名稱的螢幕擷取畫面。

  8. 當工作完成時,請瀏覽至您的 Lakehouse,並檢視 /資料表資料夾下 Delta 表格清單。

  9. 以滑鼠右鍵按一下建立的表格名稱,選取屬性,然後複製 Azure Blob 檔案系統 (ABFS) 路徑。

  10. 開啟 Azure Databricks 筆記本 讀取 OneLake 上的 Delta 資料表。

    olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" 
    df=spark.read.format('delta').option("inferSchema","true").load(olsPath)
    df.show(5)
    
  11. 藉由變欄位值來更新 Delta 資料表的資料。

    %sql
    update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;