共用方式為


Python 指令碼的工作任務

Python 指令碼任務用於執行 Python 檔案。

設定 Python 指令碼任務

開始之前,您必須將 Python 指令碼上傳至設定工作的使用者可以存取的位置。 Databricks 建議將工作區文件用於 Python 指令碼。 請參閲工作區檔案是什麼?

Note

工作 UI 會根據其他已設定的設定動態顯示選項。

Databricks 建議不要使用 DBFS 根或掛載區儲存程式碼或資料。 相反,可以將 Python 指令碼移轉至工作區檔案或磁碟區,或者使用 URI 來存取雲端物件儲存體。

若要開始流程以設定 Python script 任務:

  1. 流覽至 [工作 UI] 中的 [任務] 索引標籤。
  2. 按一下 新增任務
  3. [任務名稱] 欄位中輸入名稱。
  4. 在 [類型] 下拉選單中,選取 [Python script]。

設定來源

在 [來源] 下拉功能表中,使用下列其中一個選項選取 Python 腳本的位置。

Workspace

使用工作區來設定使用工作區檔案儲存的 Python 指令碼。

  1. 按一下 [路徑] 欄位。 [選取 Python 檔案] 對話方塊隨即顯示。
  2. 瀏覽至 Python 指令碼,點擊以選取檔案,然後按下 [確認]

Note

您可以使用此選項,在儲存於 Databricks Git 資料夾中的 Python 指令碼上設定任務。 Databricks 建議使用Git 提供者選項和遠端 Git 存放庫來對排程工作中的資產進行版本控制。

DBFS/ADLS

使用 DBFS/ADLS 來設定儲存在磁碟區、雲端物件儲存位置或 DBFS 根中的 Python 指令碼。

Databricks 建議將 Python 指令碼儲存在 Unity Catalog 磁碟區或雲端物件儲存體中。

在 [路徑] 欄位中,輸入 Python 指令碼的 URI。 例如,dbfs:/path/to/script.pyabfss://container-name@storage-account-name.dfs.core.windows.net/path/to/script.py

Git 提供者

使用 Git 提供者 來設定儲存在遠端 Git 存放庫中的 Python 指令碼。

UI 所顯示的選項取決於您是否已在其他地方設定了 Git 提供者。 只有一個遠端 Git 存放庫可用於工作中的所有任務。 請參閱搭配工作使用 Git

[路徑] 欄位會出現在您設定 Git 參考之後。

輸入 Python 指令碼的相對路徑,例如 etl/bronze/ingest.py

Important

當您輸入相對路徑時,請勿以 /./開頭。 例如,如果您想要存取之 Python 程式碼的絕對路徑是 /etl/bronze/ingest.py,請在 etl/bronze/ingest.py[路徑] 欄位中輸入

設定計算和相依程式庫

  1. 使用 [計算] 來選取或設定在指令碼中支援邏輯的叢集。
  2. 如果您使用 Serverless 計算,請使用 [環境與連結庫] 欄位來選取、編輯或新增環境。 請參閱 設定無伺服器環境
  3. 對於所有其他計算設定,請在 [相依程式庫] 下按 [+ 新增]。 此時 [新增相依程式庫] 對話方塊將隨即顯示。
    • 您可以選取現有的連結庫或上傳新的連結庫。
    • 只能使用儲存在計算組態所支援位置的程式庫。 請參閱 Python 程式庫支援
    • 每個程式庫來源都有不同的程式庫選取或上傳流程。 請參閱 安裝連結庫

完成工作組態

  1. (選用) 將參數設定為作為 CLI 參數傳遞至 Python 指令碼的字串清單。 請參閱 設定工作參數
  2. 按一下 [儲存工作]