使用筆記本任務來部署 Databricks 筆記本。
設定筆記本任務
在開始之前,您必須將筆記本放在使用者能夠設定工作流程的存取位置。
注意
工作 UI 會根據其他已設定的設定動態顯示選項。
若要開始流程以設定 Notebook 任務:
- 流覽至 [工作 UI] 中的 [任務] 索引標籤。
- 按一下 新增任務。
- 在 [任務名稱] 欄位中輸入名稱。
- 在 [類型] 下拉功能表中,選取 [
Notebook]。
設定來源
在 [來源] 下拉功能表中,使用下列其中一個選項選取 Python 腳本的位置。
工作區
透過完成下列步驟,使用 [工作區] 來設定儲存在工作區中的筆記本:
- 按一下 [路徑] 欄位。 [選取筆記本] 對話框隨即出現。
- 瀏覽至筆記本,按一下選取檔案,然後按一下(確認)。
注意
您可以使用此選項來設定存放於 Databricks Git 資料夾中的筆記本所需的任務。 Databricks 建議將 [Git 提供者] 選項與遠端 Git 存放庫搭配使用,以對使用工作排程的資產進行版本設定。
Git 提供者
使用 [Git 提供者] 來設定儲存在遠端 Git 存放庫中的筆記本。
UI 所顯示的選項取決於您是否已在其他地方設定了 Git 提供者。 只有一個遠端 Git 存放庫可用於工作中的所有任務。 請參閱搭配工作使用 Git。
重要
從遠端 Git 存放庫執行的 Lakeflow 作業所建立的筆記本是暫時的,無法依賴來追蹤 MLflow 執行、實驗或模型。 從工作建立筆記本時,請先使用工作區 MLflow 實驗 (而非筆記本 MLflow 實驗),並在工作區筆記本中呼叫 mlflow.set_experiment("/path/to/experiment"),再執行任何 MLflow 追蹤程式碼。 如需詳細資料,請參閱防止 MLflow 實驗中的資料遺失。
[路徑] 欄位會出現在您設定 Git 參考之後。
輸入筆記本的相對路徑,例如 etl/bronze/ingest.py。
重要
當您輸入相對路徑時,請勿以 / 或 ./開頭。 例如,如果您想要存取之筆記本的絕對路徑是 /etl/bronze/ingest.py,請在 [路徑] etl/bronze/ingest.py字段中輸入 。
設定計算和相依程式庫
- 使用 計算 來選取或設定一個支持記事本中邏輯的叢集。
- 如果您使用運算,
Serverless請使用 [環境] 面板或使用%pip install直接在筆記本內安裝程式庫。 請參閱 設定無伺服器環境。 - 對於所有其他計算組態,在 [相依程式庫] 下按下 + 新增。 此時 [新增相依程式庫] 對話方塊將隨即顯示。
- 您可以選取現有的連結庫或上傳新的連結庫。
- 只能使用儲存在計算組態所支援位置的程式庫。 請參閱 Python 程式庫支援。
- 每個程式庫來源都有不同的程式庫選取或上傳流程。 請參閱 安裝連結庫。
完成工作組態
- (選擇性)將 參數 設定為可在筆記本中使用
dbutils.widgets存取的鍵值對。 請參閱 設定工作參數。 - 按一下 [儲存任務]。
限制
筆記本數據格輸出總計(所有筆記本儲存格的合併輸出)受限於 20 MB 的大小限制。 此外,個別儲存格的輸出受限於 8MB 大小限制。 如果儲存格總輸出超過大小 20 MB,或個別儲存格的輸出大於 8MB,則會被取消執行並標示為失敗。
如果您需要尋找接近或超出限制的儲存格,請在通用叢集上執行筆記本,並使用此 筆記本自動儲存技術。