共用方式為


CycleCloud:核心概念

在最基本的情況下,高效能運算 (HPC) 系統是高效能文件系統所支援的計算資源集區,並透過低延遲網路互連。 HPC 排程器、排程作業的軟體應用程式,通常會管理這些計算資源。

從虛擬機、磁碟和網路介面等基本基礎結構單位在 Azure 上建置個別 HPC 系統可能會很麻煩,特別是如果這些資源是暫時的,則只有解決 HPC 工作所需的時間才存在。 此外,您可能想要為各種業務單位、研究小組或個人量身打造的多個個別 HPC 環境。 管理這些多個 HPC 系統在作上可能相當複雜。

什麼是 CycleCloud?

Azure CycleCloud 是一種工具,可協助在 Azure 上建構 HPC 系統。 它會協調這些系統,使其根據 HPC 工作彈性調整大小,而不需要管理基本的 Azure 建置組塊。 一個經驗豐富的 HPC 專業人員小組為 HPC 系統管理員和用戶設計 CycleCloud,特別是想要在 Azure 中建置 HPC 系統的使用者,其類似於其內部 HPC 基礎結構。

編排流程圖

在作上,CycleCloud 是您在 Azure 上的 Linux VM 或內部部署伺服器上安裝的應用程式伺服器,可存取 Azure API 和資源。 CycleCloud 會取得並布建 Azure VM,以建構可整合排程器和使用者應用程式的 CycleCloud 叢集。 CycleCloud 還提供專為多個 HPC 排程器設計的自動調整整合功能,以及能在 Azure VM 上執行的 CycleCloud 代理程式。

應用程式伺服器

此應用程式伺服器提供:

  • 在 Azure 上建立和管理 HPC 系統的 REST API。
  • 您用來管理及監視 HPC 系統的圖形用戶介面。
  • CLI,可協助將 CycleCloud 整合到現有的工作流程中。
  • 內部的 NoSQL 資料存放區,用於快取叢集和節點狀態。
  • 取得和管理 Azure VM 的配置和協調流程系統。
  • 現有 VM 的節點監視系統,警示狀態變更。

整合

CycleCloud 也提供整合至常見排程器和 Azure VM 的功能。 這些整合提供:

  • 將布建的 VM 轉換成 HPC 節點的節點準備和組態系統。
  • 專為 HPC 排程器設計的自動調整功能,可將 HPC 排程器的工作需求轉換為 Azure 資源。

CycleCloud 可以執行的動作

CycleCloud 是以在 Azure 上部署 HPC 系統的 HPC 作員(系統管理員和使用者)為目標。 他們想要復寫內部執行的基礎結構,從 HPC 排程器到檔案系統載入點,以進行應用程式安裝和數據存取。 這些用戶特別尋找應用程式、工作流程引擎和計算管線的支援,而不需要重新調整其內部程式。

CycleCloud 提供豐富的宣告式範本化語法,可讓您描述 HPC 系統。 您可以定義叢集拓撲,其中包含您在每個節點上部署的叢集節點、裝入點和應用程式的數目和類型。 CycleCloud 旨在與 HPC 排程器協同運作,例如 PBSPro、Slurm、IBM LSF、Grid Engine 和 HT Condor。 您可以在每個排程器中建立不同的佇列,並將其對應至 Azure 上不同 VM 大小的計算節點。 此外,自動調整外掛程式會與排程器前端節點整合。 他們會先接聽每個系統中的工作佇列,之後通過與應用程式伺服器上運行的自動調整 REST API 互動,來調整計算叢集的大小。

除了布建和建立 HPC 節點之外,CycleCloud 還提供一個架構來準備和設定虛擬機。 它提供將裸機 VM 轉換成 HPC 系統功能元件的系統。 透過此架構,您可以在 VM 上執行最後一英里的設定。

此外,CycleCloud 提供下列功能:

  • 使用者存取

    CycleCloud 內建支援在 HPC 系統的每個節點上建立本機用戶帳戶。 透過此系統,您可以透過單一管理平面控制使用者存取,而不需部署目錄服務。

  • 監視

    節點層級的計量會收集並顯示在 CycleCloud UI 中。 這些計量適用於監視系統上的負載。 您可以將它們連結至報告和警示服務。

  • 記錄

    CycleCloud 提供系統來記錄節點和應用程式伺服器層級的活動和事件。

  • 可攜性

    系統不強制您使用特定的 VM 映像或作系統。 CycleCloud 支援 HPC 節點上的主要 Windows 和 Linux作系統。 此外,您可以建置自己的 VM 映射,並在 HPC 系統中使用它。

  • 基礎結構即程式代碼

    由於 CycleCloud 中建立的所有專案都是在範本和設定腳本中定義,因此您可以讓 HPC 系統透過 CycleCloud 可重複且可攜式部署。 此方法為在不同環境中部署 HPC 系統提供一致性:沙箱、開發、測試和生產環境。 作員也可以為不同的商務群組或小組部署相同的 HPC 系統,以區分會計考慮。

  • 鬆散結合或緊密結合的工作負載

    CycleCloud 所建立的 HPC 叢集設計不僅支援鬆散耦合或易於平行的作業,還強調調整規模 (叢集大小) 作為主要考量因素。 CycleCloud 叢集的設計也考慮到 Azure 的 InfiniBand 骨幹,支援節點鄰近性與網路等待時間十分重要的緊密結合或 MPI 型工作負載。 這些向外延展和緊密結合的概念在 CycleCloud 支援的排程器整合中根深蒂固。