練習 - 從內建範本建立 HPC 叢集

已完成

您可以直接從 Azure CycleCloud Web 應用程式的圖形化介面建立新的叢集。 CycleCloud 提供許多預先定義的排程器特定範本,可簡化對應排程器的叢集布建。

現在您已布建裝載 CycleCloud Web 應用程式的 Azure 虛擬機,現在您已準備好評估其用於將 Slurm 型 HPC 叢集部署至 Azure。 您必須先確定您的 Azure 訂用帳戶符合叢集的資源需求。 您也想要考慮您的管理團隊是否想要在項目預算內保留叢集的成本。 因此,您打算在完成評估之後設定 CycleCloud 預算警示,並取消佈建實驗室環境。

在本練習中,您會逐步使用 Azure CycleCloud 將 Slurm 型 HPC 叢集部署至 Azure。 本練習包含下列工作:

  • 工作 1:準備部署 HPC 叢集
  • 工作 2:使用 Azure CycleCloud 建立 HPC 叢集
  • 工作 3:使用 Azure CycleCloud 設定和啟動 HPC 叢集
  • 工作 4:清除實驗室環境

工作 1:準備部署 HPC 叢集

部署 HPC 叢集之前,您應該先確定有足夠的網路和計算資源來容納其使用量。

備註

若要完成此練習,您不需要滿足配額需求來容納計算節點的布建,因為您不會在建立的叢集上執行任何作業。 然而,如果是這種情形,您可能會注意到此練習中的螢幕快照與 CycleCloud 應用程式介面不符,因為如果您沒有足夠的可用核心數目,CycleCloud 將不會預先建立佔位計算節點。

  1. 在您的電腦上,切換至顯示 Azure 入口網站的網頁瀏覽器視窗。

  2. 在 Azure 入口網站中,使用入口網站介面頂端的搜尋方塊來搜尋 cyclecloud-rg 資源群組。

  3. 在 Azure 入口網站的 cyclecloud-rg 頁面上,選取資源清單中的 cyclecloud-rg-vnet 項目,這代表您在此模組前一個練習中布建的虛擬網路。

  4. cyclecloud-rg-vnet 頁面上,於左側的垂直功能表中,選取 [ 子網]。

  5. cyclecloud-rg-vnet |子網 面板中,選擇 + 子網

  6. 在 [ 新增子網 ] 窗格的 [ 名稱 ] 文本框中,輸入 contoso-slurm-lab-cluster-subnet,接受預設子網範圍,然後選取 [ 儲存]。

    備註

    建議您將裝載 CycleCloud Azure VM 的子網與裝載叢集計算資源的子網分開。 針對較大的叢集,您應該配置足夠大小的IP位址範圍。

  7. 在 Azure 入口網站中,使用搜尋方塊來搜尋 訂用帳戶

  8. 在 [ 訂用帳戶] 頁面上,選取您在此課程模組中用於練習的 Azure 訂用帳戶。

  9. 在顯示 Azure 訂用帳戶的頁面上,於左側的垂直功能表中,於 [ 設定 ] 區段中,選取 [ 使用量 + 配額]。

  10. 在 [ 使用量 + 配額 ] 窗格上,設定下列篩選設定(讓其他人保留預設值):

    設定 價值觀
    選取服務 選取 [標準 Dv3 系列 vCPU]、[標準 FSv2 系列 vCPU] 及 [區域 vCPU 總計] 項目。
    選取提供者 選取 Microsoft.Compute 項目。
    選取位置 選取您想要在此練習中部署叢集的 Azure 區域名稱。
  11. 檢閱輸出,並識別每個群組中可用的 vCPU 數目。

    顯示 Azure 入口網站中 [使用量加配額] 窗格的螢幕快照。

工作 2:使用 Azure CycleCloud 建立 HPC 叢集

現在您已在 Azure VM 中安裝 CycleCloud Web 應用程式、Azure 訂用帳戶中可用的足夠 vCPU 核心,以及能夠容納叢集節點自動調整的指定網路子網。 您已準備好繼續部署以 Slurm 為基礎的叢集。

  1. 在您的電腦上,在顯示 Azure CycleCloud Web 應用程式的 [ 用帳戶] 頁面的網頁瀏覽器視窗中,選取左上角的 [ 回到叢集 ] 連結。

  2. 在 [ 建立新的叢集 ] 頁面上,檢閱可用的選項,然後在 [ 排程器 ] 區段中,選取 [Slurm]。

    顯示 Azure CycleCloud Web 應用程式的 [建立新叢集] 頁面的螢幕快照。

  3. 在 [新增 Slurm 叢集] 頁面的 [關於] 索引標籤上,於 [叢集名稱] 文本框中,輸入 contoso-slurm-lab-cluster

    此螢幕快照顯示 Azure CycleCloud Web 應用程式的 [新增 Slurm 叢集] 頁面的 [關於] 索引卷標。

  4. 在 [新增 Slurm 叢集] 頁面的 [必要設定] 索引標籤上,於 [叢集名稱] 文字框中,設定下列設定(讓其他人保留預設值):

    設定 價值觀
    區域 選取您想要在此練習中部署叢集的 Azure 區域名稱。
    排程器 VM 類型 選取 [選擇],然後在 [ 選取計算機類型 ] 彈出視窗中,於 [ SKU 搜尋 ] 文本框中輸入 “D2ds_v5”。 在結果清單中,選取 D2ds_v5 專案旁的複選框,然後選取 [ 套用]。

    此螢幕擷取畫面顯示 Azure CycleCloud Web 應用程式中 [新增 Slurm 叢集] 頁面的 [選取機器類型] 快顯視窗索引標籤。

    設定 價值觀
    最大 HPC 核心 輸入 100
    最大 HTC 核心 輸入 100
    每個 ScaleSet 的 VM 數目上限 輸入 40
    子網路識別碼 選取 cyclecloud-rg:cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet

    此螢幕快照顯示 Azure CycleCloud 網頁應用程式 [新增 Slurm 叢集] 頁面的 [必要設定] 標籤。

    備註

    每個擴展集的最大 VM 數量設定 限制了可在叢集上執行的訊息傳遞介面作業的最大規模,因為擴展集目前是 InfiniBand 網狀架構的界限。

  5. 在 [新增 Slurm 叢集] 頁面的 [網络連接儲存區] 索引標籤上,確認 [NFS 類型] 已設定為 [內建]。 接受 Size (GB) 預設值設為 100,然後選取 下一步

    此螢幕快照顯示 Azure CycleCloud 網路應用程式 [新增 Slurm 叢集] 頁面的 [網路附加儲存] 標籤。

  6. 在 [新增 Slurm 叢集] 頁面的 [進階設定] 索引標籤上,檢閱可用的選項而不進行任何變更,然後選取 [下一步]。

    此螢幕快照顯示 Azure CycleCloud Web 應用程式 [新增 Slurm 叢集] 頁面的 [進階設定] 索引卷標。

  7. 在 [新增 Slurm 叢集] 頁面的 [Cloud-init] 索引標籤上,檢閱可用選項而不進行任何變更,然後選取 [儲存]

工作 3:使用 Azure CycleCloud 設定和啟動 HPC 叢集

若要準備讓您的叢集運作,請設定警示,以在叢集使用量成本達到針對 Azure 資源成本配置的預算時通知您。 您也可以使用 CycleCloud Web 應用程式的圖形化介面啟動叢集來驗證部署。

  1. 在您的電腦上,在顯示 Azure CycleCloud Web 應用程式的圖形化介面的網頁瀏覽器中,檢閱新部署叢集的屬性。

    此螢幕快照顯示 Azure CycleCloud Web 應用程式中處於關閉狀態的 contoso-slurm-lab-cluster 頁面。

  2. contoso-slurm-lab-cluster 頁面上,選取 [ 建立新的警示] 連結。

  3. contoso-slurm-lab-cluster 彈出視窗的 [叢集使用警示 ] 中,指定下列設定,然後選取 [ 儲存]:

    設定 價值觀
    預算 $100.00
    每個 月份
    傳送通知 已啟用
    收件者 cc-admin@contoso.com

    此螢幕快照顯示 Azure CycleCloud Web 應用程式中 contoso-slurm-lab-cluster 彈出視窗的叢集使用量警示。

  4. 回到 contoso-slurm-lab-cluster 頁面,選取 [ 開始 ] 鏈接,當系統提示您確認時,請選取 [ 確定]。

  5. 監控啟動過程。

    備註

    此程式牽涉到布建提供叢集前端節點角色的 Azure VM,以及 Slurm 排程器的安裝和設定。 這大約需要五分鐘的時間。

    此螢幕擷取畫面顯示 Azure CycleCloud Web 應用程式中處於已啟動狀態 [contoso-slurm-lab-cluster] 的 [節點] 索引標籤頁面。

工作 4:清除實驗室環境

您已完成使用 Azure CycleCloud 應用程式的叢集部署程序測試。 若要避免與使用 Azure 資源相關聯的不必要的成本,請終止叢集,並移除您在本課程練習中布建的所有資源。

  1. 在您的計算機上,在顯示 Azure CycleCloud Web 應用程式的圖形化介面的網頁瀏覽器中,於 contoso-slurm-lab-cluster 頁面上,選取 [終止 ] 連結,並在系統提示確認時選取 [ 確定]。

  2. 監視終止流程。

    備註

    此過程涉及解除佈建擔任叢集前端節點角色的 Azure VM。 這大約需要五分鐘的時間。

    備註

    您應該刪除您在本練習中部署的資源,如此工作中所概述。 如果您未刪除資源,可能會對訂用帳戶產生額外費用。

    備註

    若要刪除您在此實驗室中布建的所有其他資源,請刪除 cyclecloud-rg 資源群組。

  3. 在您的電腦上,切換至顯示 Azure 入口網站的瀏覽器視窗。

  4. 在 Azure 入口網站中,瀏覽至 cyclecloud-rg 頁面。 選取工具列中的 [ 刪除資源群組 ] 項目,然後在 [ 輸入資源組名] 文本框中,輸入 cyclecloud-rg,然後選取 [ 刪除]。

  5. 重複上一個步驟,刪除名稱開頭為 contoso-slurm-lab-cluster 的資源群組,其中包含叢集所使用的磁碟資源。

祝賀! 您已成功完成本課程模組的第二個練習。 您已確保計算和網路資源的可用性,這些資源是容納新叢集部署所需的資源。 然後,您已使用 Azure CycleCloud 部署叢集、設定其預算警示,並啟動叢集來驗證其功能。 最後,您已終止叢集,並刪除您在此課程模組中布建的所有資源,以避免任何不必要的成本。