練習 - 從內建範本建立 HPC 叢集
您可以直接從 Azure CycleCloud Web 應用程式的圖形化介面建立新的叢集。 CycleCloud 提供許多預先定義的排程器特定範本,可簡化對應排程器的叢集布建。
現在您已布建裝載 CycleCloud Web 應用程式的 Azure 虛擬機,現在您已準備好評估其用於將 Slurm 型 HPC 叢集部署至 Azure。 您必須先確定您的 Azure 訂用帳戶符合叢集的資源需求。 您也想要考慮您的管理團隊是否想要在項目預算內保留叢集的成本。 因此,您打算在完成評估之後設定 CycleCloud 預算警示,並取消佈建實驗室環境。
在本練習中,您會逐步使用 Azure CycleCloud 將 Slurm 型 HPC 叢集部署至 Azure。 本練習包含下列工作:
- 工作 1:準備部署 HPC 叢集
- 工作 2:使用 Azure CycleCloud 建立 HPC 叢集
- 工作 3:使用 Azure CycleCloud 設定和啟動 HPC 叢集
- 工作 4:清除實驗室環境
工作 1:準備部署 HPC 叢集
部署 HPC 叢集之前,您應該先確定有足夠的網路和計算資源來容納其使用量。
備註
若要完成此練習,您不需要滿足配額需求來容納計算節點的布建,因為您不會在建立的叢集上執行任何作業。 然而,如果是這種情形,您可能會注意到此練習中的螢幕快照與 CycleCloud 應用程式介面不符,因為如果您沒有足夠的可用核心數目,CycleCloud 將不會預先建立佔位計算節點。
在您的電腦上,切換至顯示 Azure 入口網站的網頁瀏覽器視窗。
在 Azure 入口網站中,使用入口網站介面頂端的搜尋方塊來搜尋 cyclecloud-rg 資源群組。
在 Azure 入口網站的 cyclecloud-rg 頁面上,選取資源清單中的 cyclecloud-rg-vnet 項目,這代表您在此模組前一個練習中布建的虛擬網路。
在 cyclecloud-rg-vnet 頁面上,於左側的垂直功能表中,選取 [ 子網]。
在 cyclecloud-rg-vnet |子網 面板中,選擇 + 子網。
在 [ 新增子網 ] 窗格的 [ 名稱 ] 文本框中,輸入 contoso-slurm-lab-cluster-subnet,接受預設子網範圍,然後選取 [ 儲存]。
備註
建議您將裝載 CycleCloud Azure VM 的子網與裝載叢集計算資源的子網分開。 針對較大的叢集,您應該配置足夠大小的IP位址範圍。
在 Azure 入口網站中,使用搜尋方塊來搜尋 訂用帳戶。
在 [ 訂用帳戶] 頁面上,選取您在此課程模組中用於練習的 Azure 訂用帳戶。
在顯示 Azure 訂用帳戶的頁面上,於左側的垂直功能表中,於 [ 設定 ] 區段中,選取 [ 使用量 + 配額]。
在 [ 使用量 + 配額 ] 窗格上,設定下列篩選設定(讓其他人保留預設值):
設定 價值觀 選取服務 選取 [標準 Dv3 系列 vCPU]、[標準 FSv2 系列 vCPU] 及 [區域 vCPU 總計] 項目。 選取提供者 選取 Microsoft.Compute 項目。 選取位置 選取您想要在此練習中部署叢集的 Azure 區域名稱。 檢閱輸出,並識別每個群組中可用的 vCPU 數目。
工作 2:使用 Azure CycleCloud 建立 HPC 叢集
現在您已在 Azure VM 中安裝 CycleCloud Web 應用程式、Azure 訂用帳戶中可用的足夠 vCPU 核心,以及能夠容納叢集節點自動調整的指定網路子網。 您已準備好繼續部署以 Slurm 為基礎的叢集。
在您的電腦上,在顯示 Azure CycleCloud Web 應用程式的 [ 訂 用帳戶] 頁面的網頁瀏覽器視窗中,選取左上角的 [ 回到叢集 ] 連結。
在 [ 建立新的叢集 ] 頁面上,檢閱可用的選項,然後在 [ 排程器 ] 區段中,選取 [Slurm]。
在 [新增 Slurm 叢集] 頁面的 [關於] 索引標籤上,於 [叢集名稱] 文本框中,輸入 contoso-slurm-lab-cluster。
在 [新增 Slurm 叢集] 頁面的 [必要設定] 索引標籤上,於 [叢集名稱] 文字框中,設定下列設定(讓其他人保留預設值):
設定 價值觀 區域 選取您想要在此練習中部署叢集的 Azure 區域名稱。 排程器 VM 類型 選取 [選擇],然後在 [ 選取計算機類型 ] 彈出視窗中,於 [ SKU 搜尋 ] 文本框中輸入 “D2ds_v5”。 在結果清單中,選取 D2ds_v5 專案旁的複選框,然後選取 [ 套用]。
設定 價值觀 最大 HPC 核心 輸入 100 最大 HTC 核心 輸入 100 每個 ScaleSet 的 VM 數目上限 輸入 40 子網路識別碼 選取 cyclecloud-rg:cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet
備註
每個擴展集的最大 VM 數量設定 限制了可在叢集上執行的訊息傳遞介面作業的最大規模,因為擴展集目前是 InfiniBand 網狀架構的界限。
在 [新增 Slurm 叢集] 頁面的 [網络連接儲存區] 索引標籤上,確認 [NFS 類型] 已設定為 [內建]。 接受 Size (GB) 預設值設為 100,然後選取 下一步。
在 [新增 Slurm 叢集] 頁面的 [進階設定] 索引標籤上,檢閱可用的選項而不進行任何變更,然後選取 [下一步]。
在 [新增 Slurm 叢集] 頁面的 [Cloud-init] 索引標籤上,檢閱可用選項而不進行任何變更,然後選取 [儲存]。
工作 3:使用 Azure CycleCloud 設定和啟動 HPC 叢集
若要準備讓您的叢集運作,請設定警示,以在叢集使用量成本達到針對 Azure 資源成本配置的預算時通知您。 您也可以使用 CycleCloud Web 應用程式的圖形化介面啟動叢集來驗證部署。
在您的電腦上,在顯示 Azure CycleCloud Web 應用程式的圖形化介面的網頁瀏覽器中,檢閱新部署叢集的屬性。
在 contoso-slurm-lab-cluster 頁面上,選取 [ 建立新的警示] 連結。
在 contoso-slurm-lab-cluster 彈出視窗的 [叢集使用警示 ] 中,指定下列設定,然後選取 [ 儲存]:
設定 價值觀 預算 $100.00 每個 月份 傳送通知 已啟用 收件者 cc-admin@contoso.com
回到 contoso-slurm-lab-cluster 頁面,選取 [ 開始 ] 鏈接,當系統提示您確認時,請選取 [ 確定]。
監控啟動過程。
備註
此程式牽涉到布建提供叢集前端節點角色的 Azure VM,以及 Slurm 排程器的安裝和設定。 這大約需要五分鐘的時間。
工作 4:清除實驗室環境
您已完成使用 Azure CycleCloud 應用程式的叢集部署程序測試。 若要避免與使用 Azure 資源相關聯的不必要的成本,請終止叢集,並移除您在本課程練習中布建的所有資源。
在您的計算機上,在顯示 Azure CycleCloud Web 應用程式的圖形化介面的網頁瀏覽器中,於 contoso-slurm-lab-cluster 頁面上,選取 [終止 ] 連結,並在系統提示確認時選取 [ 確定]。
監視終止流程。
備註
此過程涉及解除佈建擔任叢集前端節點角色的 Azure VM。 這大約需要五分鐘的時間。
備註
您應該刪除您在本練習中部署的資源,如此工作中所概述。 如果您未刪除資源,可能會對訂用帳戶產生額外費用。
備註
若要刪除您在此實驗室中布建的所有其他資源,請刪除 cyclecloud-rg 資源群組。
在您的電腦上,切換至顯示 Azure 入口網站的瀏覽器視窗。
在 Azure 入口網站中,瀏覽至 cyclecloud-rg 頁面。 選取工具列中的 [ 刪除資源群組 ] 項目,然後在 [ 輸入資源組名] 文本框中,輸入 cyclecloud-rg,然後選取 [ 刪除]。
重複上一個步驟,刪除名稱開頭為 contoso-slurm-lab-cluster 的資源群組,其中包含叢集所使用的磁碟資源。
祝賀! 您已成功完成本課程模組的第二個練習。 您已確保計算和網路資源的可用性,這些資源是容納新叢集部署所需的資源。 然後,您已使用 Azure CycleCloud 部署叢集、設定其預算警示,並啟動叢集來驗證其功能。 最後,您已終止叢集,並刪除您在此課程模組中布建的所有資源,以避免任何不必要的成本。