本文說明社群訓練中的可靠性支援。 它涵蓋 可用性區域 的區域彈性、災難復原和業務持續性。 如需更多關於 Azure 可靠性準則的詳細概觀,請參閱 Azure 可靠性。
Microsoft 社群訓練是 Azure 支援的雲端式解決方案,可藉由使用跨配對區域的區域備援部署,以高品質和高效率提供大規模、廣泛分散的訓練計劃。 透過社群訓練,各種規模和類型的組織都可以為其內部和外部社群執行大規模訓練計劃,並提供控制和數據平面可用性區域支援。 社群可以包括前線工作人員、擴充人力、合作夥伴生態系統、志願者網路和計劃受益者。
可用性區域支援
可用性區域 是 Azure 區域內物理上獨立的資料中心群組。 當某個區域失敗時,服務可以容錯移轉至其餘的區域之一。
社群訓練會使用 Azure 可用性區域,在 Azure 區域內提供高可用性和容錯。 社群訓練同時提供控制和資料平面可用性區域支援:
必要條件
下列社群訓練 SKU 支援 Azure 可用性區域:
- 標準 (低階使用者)
- 進階 (高階使用者)
只有配對區域支援社群訓練。 每個次要區域都會使用區域性組態進行部署。 下表顯示支援社群訓練可用性區域及其配對區域的所有區域。
| 主要區域 | 配對區域 |
|---|---|
| 英國南區 | UKWest |
| 澳大利亞東部 | 澳大利亞東南部 |
| EastUS | WestUS |
| EastUS2 | 美國中部地区 |
| 北歐 | 西歐 |
| WestUS3 | EastUS |
| SwedenCentral | 瑞典南部 |
分區容錯移轉支援
社群訓練使用許多相依性 Azure 服務,例如 App Service 和 Azure SQL。 當您選擇區域備援部署時,社群訓練也會建立這些基礎 Azure 服務資源的區域性備援供應項目。 如果某個區域失敗,所有資源 (包括相依性資源) 都會容錯轉移至其中一個狀況良好的區域。
建立已啟用可用性區域的資源
社群訓練只會在建立執行個體時提供可用性區域的組態。 如果您想要在建立執行個體之後變更可用性區域組態,您必須建立新的執行個體。
區域關閉體驗
區域性。 在全區域中斷期間,社群訓練可能會有完全或部分的服務中斷。 可用的範圍取決於各種因素,例如整個資料中心是否已關閉,或特定相依性服務是否不再適用於該區域。
區域備援。 在全區域中斷期間,您不應感到對已佈建的資源有任何影響。 不過,您應該做好準備,以因應與這些資源的通訊短暫中斷。 在區域關閉的情況下,用戶端通常會收到 409 錯誤碼,以及重試邏輯嘗試以適當的間隔重新建立連線。 新的要求會導向至狀況良好的節點,而不會對使用者造成影響。 在全區域中斷期間,使用者能夠建立新的資源,並成功調整現有資源。
災害復原和商務持續性
災害復原 (DR) 是指組織用來從高影響事件中復原的做法,例如自然災害或導致停機時間和數據遺失的失敗部署。 無論原因為何,解決災害的最佳辦法是定義完善且經過測試的 DR 方案,以及主動支援 DR 的應用程式設計。 開始建立災害復原計劃之前,請參閱 設計災害復原策略的建議。
針對DR,Microsoft使用 共同責任模型。 在此模型中,Microsoft可確保基準基礎結構和平臺服務可供使用。 不過,許多 Azure 服務不會自動複製數據,也不會在發生故障的區域自動切換至另一個可用的區域進行跨區域數據同步。 您需要為這些服務制定適合工作負載的災害復原方案。 在 Azure 平臺即服務上執行的大部分服務 (PaaS) 供應專案都提供支援DR的功能和指引。 您可以使用 服務特定功能來支援快速復原 ,以協助開發DR方案。
Microsoft 社群訓練小組會管理社群訓練的整個災害復原程序。 災害復原不是主動-主動或主動-被動性質,而是以從 Azure 服務的最新可用備份復原為基礎。 社群訓練小組會從資料備份手動建立配對區域中的所有資源。
附註
只有在配對區域中支援社群訓練災害復原。
多區域地理位置的災害復原
在區域性災害中,控制平面會手動容錯轉移至配對區域。 在容錯轉移完成前的時間,您應該預期服務效能會有一些降低。 容錯轉移之後,僅支援唯讀作業,直到災害區域重新上線為止。 一旦服務重新上線且所有作業繼續,服務就會手動容錯回復至原始區域。 復原點目標 (RPO) 預期為 10 分鐘;復原時間目標 (RTO) 為 24 小時。
針對資料平面,社群訓練提供 Microsoft 管理的災害復原。 若要使用受控災害復原,您必須在 Azure 中建立社群訓練執行個體期間啟用災害復原。 一旦啟用災害復原,Microsoft 就會在配對區域中維護儲存體和資料庫的備份。 復原點目標 (RPO) 預期為 12 小時;復原時間目標 (RTO) 為 48 小時。
附註
RTO 取決於資料庫和記憶體大小,以及配對區域之間的延遲。 資料庫或儲存體 VM 容量 (SKU)。 RPO 取決於基礎 Azure 資源,例如 Azure SQL 和 Azure 儲存體。 如需 RTO 和 RPO 的詳細資訊,請參閱什麼是商務持續性、高可用性和災害復原?。
中斷偵測、通知及管理
當社群訓練健康情況檢查偵測到任何服務中斷,且在任何區域中,Microsoft 會要求您同意容錯轉移至配對區域。 Microsoft 會通知您災害復原程序期間有哪些功能可以使用。 一旦 Microsoft 收到您的同意,社群訓練小組就可以開始進行災害復原程序。
重要事項
在主要區域可運作前,學習者將無法取用音訊/視訊功能。 建議您避免媒體上傳作業,直到主要站台可運作為止。
容量和主動式災害復原能力
Microsoft 及其客戶會在共同責任模型下運作。 一旦任何區域關閉,社群訓練執行個體不僅會移轉至配對區域,但所有產品和客戶工作負載也會移轉至配對區域。 此程序可能會導致配對區域或資料中心的資源短缺。 因此,災害復原可用性取決於基礎 Azure 資源的可用容量。