在本指南中,您將會:
在工作區建立管線並將資料以 Delta 格式內嵌到 OneLake。
使用 Azure Databricks 讀取並修改 OneLake 中的 Delta 資料表。
必要條件
開始之前,確認您擁有:
帶有 Lakehouse 項目的工作區。
進階版 Azure Databricks 工作區。 只有進階版 Azure Databricks 工作區支援 Microsoft Entra 認證傳遞。 當建立叢集時,請在進階選項啟用 Azure Data Lake Storage 認證傳遞。
範例資料集
內嵌資料並修改 Delta 資料表。
流覽至 Power BI 服務中的 Lakehouse,然後選取 [ 取得資料 ],然後選取 [新增管線]。
在新增準管線提示字元中,輸入新增準管線的名稱,然後選取建立。
在本練習中,選取 NYC Taxi - Green 範例資料作為資料來源。
在預覽畫面,選取 下一步。
針對資料目的地,選取您想要用來儲存 OneLake Delta 資料表資料的 Lakehouse 名稱。 您可以選擇現有 Lakehouse 或新建一個。
選取您要儲存輸出的位置。 選擇 Tables 作為 根資料夾。 輸入「nycsample」作為資料表名稱,然後選取 下一步。
在檢閱 + 儲存畫面,確定已選取立即啟動資料傳輸選項,然後選取儲存 + 執行。
當工作完成時,請瀏覽至您的 Lakehouse,並檢視 /資料表資料夾下 Delta 表格清單。
以滑鼠右鍵按一下建立的表格名稱,選取屬性,然後複製 Azure Blob 檔案系統 (ABFS) 路徑。
開啟 Azure Databricks 筆記本 讀取 OneLake 上的 Delta 資料表。
olsPath = "abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample" df=spark.read.format('delta').option("inferSchema","true").load(olsPath) df.show(5)藉由變欄位值來更新 Delta 資料表的資料。
%sql update delta.`abfss://<replace with workspace name>@onelake.dfs.fabric.microsoft.com/<replace with item name>.Lakehouse/Tables/nycsample` set vendorID = 99999 where vendorID = 1;