在 HPC Pack 中,作業和工作有幾乎相同的生命周期狀態。 主要生命周期狀態為 [設定]、[已排入佇列]、[執行中]、[已完成]、[失敗] 和 [已取消]。 工作和工作也會經歷短暫的過渡狀態。 下表摘要說明所有生命周期狀態。
作業和工作狀態
| 國家 | 定義 |
|---|---|
| 設定 | 作業或工作位於系統中,但尚未提交至佇列。 |
| 已送出 | 作業或工作已提交,且正在等候驗證,才能排入佇列。 |
| 驗證 | HPC 作業排程器服務正在驗證作業或工作。 在驗證期間,HPC 作業排程器服務會確認許可權、針對作業擁有者未指定的任何屬性套用預設設定,並針對條件約束驗證每個屬性。 默認設定和條件約束是由作業範本所定義。 如需作業範本的詳細資訊,請參閱 瞭解作業範本 - 作業管理員。 HPC 作業排程器服務也會確認作業屬性包含所有工作屬性(例如,沒有工作具有比作業運行時間更大的運行時間)。 在驗證期間,作業也可能通過叢集管理員所定義的自定義提交篩選應用程式。 如果作業通過驗證,它會移至 [佇列 ] 狀態。 如果作業未通過驗證,作業會顯示錯誤訊息,而作業會移至 失敗 狀態。 |
| 佇列 | 作業或工作已通過驗證,並正在等候排程和啟動(執行)。 當執行中的作業、 基本 工作或 參數掃掠 子工作被 HPC 作業排程器服務先佔時,它會回到 佇列 狀態(除非無法重新執行工作,在此情況下會將其標示為 失敗)。 注意: 在 HPC Pack 2012 中, 佇列 排程模式中先佔行為的預設選項是工作層級立即先佔,而不是作業層級先佔。 |
| 調度 | 此狀態僅適用於工作。 HPC 作業排程器服務已將資源配置給工作,並連絡已配置節點以開始執行工作。 工作啟動時,它會移至 [執行中 ] 狀態。 |
| 執行 | 作業或工作正在一或多個節點上執行。 |
| 整理 | 作業或工作已完成,且作業或工作清除正在進行中。 |
| 已完成 | 作業或工作已順利完成。 |
| 失敗 | 作業或工作無法完成、停止執行或傳回表示失敗的結束代碼(預設為任何非零結束代碼)。 此外,執行中的工作會在下列情況下標示為 失敗 : - 作業擁有者或叢集管理員會取消工作。 - HPC 作業排程器服務會取消工作,因為它已超過其最大運行時間。 - HPC 作業排程器服務會先佔未標示為可重新執行的工作。 - HPC 作業排程器服務會先佔每個資源啟動的子工作(節點準備、節點發行和服務子工作)。 如果作業或工作因為叢集失敗而無法啟動,作業或工作就會在 標示為失敗之前自動重試指定的次數。 |
| 取消 | 作業或工作已取消,且清理正在進行中。 |
| 已取消 | 作業由作業擁有者、叢集管理員或 HPC 作業排程器服務取消。 例如,如果 HPC 作業排程器服務超過其運行時間或先佔作業,就可以取消作業。 工作在作業擁有者或叢集管理員開始執行之前已取消。 如果取消執行中的工作,工作會標示為 失敗。 若要取消作業或工作,請參閱 取消作業或工作 - 作業管理員 或 強制取消作業或工作 - 作業管理員。 |