共用方式為


Project Flash - 推進 Azure 虛擬機可用性監視

Flash 是內部已知的專案,其名稱衍生自我們堅定的承諾,為客戶建立健全、可靠且快速的機制,以監視虛擬機(VM) 健康情況。 我們的主要目標是確保客戶能夠可靠地存取可採取動作且精確的遙測、及時接收變更的警示,並定期大規模監視數據。 我們也強調開發集中且一致的體驗,讓客戶能夠方便使用,以符合其獨特的可觀察性需求。 這是我們的使命,確保您可以:

  • 在 VM 可用性中斷時,取得精確且可採取行動的數據(例如,VM 重新啟動和重啟操作、應用程式因為網路驅動程式更新和 30 秒主機 OS 更新而發生凍結),以及具體的故障詳細信息(例如,平台與使用者發起、重啟與凍結、計劃性與非計劃性)。
  • 分析 VM 可用性趨勢併發出警示, 以快速偵錯和逐月報告。
  • 定期監視大規模數據 並建置自定義儀錶板,以隨時掌握所有資源的最新可用性狀態。
  • 接收自動化的根本原因分析 (RCA) 報告,詳細說明受影響的 VM、停機原因和持續時間、後續修正措施及類似問題,所有這些都能夠啟用針對性調查和事後分析。
  • 接收 VM 可用性中重大變更的即時通知,以快速觸發補救動作,並防止使用者造成影響。
  • 根據不斷變化的工作負載敏感度和故障轉移需求,動態量身打造並自動化平臺復原原則。

Flash 解決方案

Flash 計劃致力於開發多年來滿足客戶多樣化監視需求的解決方案。 若要協助您判斷最適合您特定需求的 Flash 監視解決方案,請參閱下表:

解決方案 說明
Azure Resource Graph (一般可用性) 為了在大規模調查中進行集中式資源存放庫及歷程記錄查詢,大型客戶希望能利用 Azure Resource Graph(ARG)定期收集其所有工作負載的資源可用性訊息。
事件方格系統主題 (公開預覽) 為了觸發時效性和關鍵緩解措施(重新部署、重新啟動 VM 動作)以防止對使用者的影響,客戶(例如,Pearl Abyss,Krafton)希望在事件網格 (Event Grid) 中的事件處理程式於資源可用性發生重大變更的幾秒內收到警示。
Azure 監視器 (公開預覽) 若要追蹤趨勢、匯總平臺計量(CPU、磁碟等),並設定精確的閾值型警示,客戶想要透過 Azure 監視器取用現成可用的 VM 可用性計量。
資源健康 (一般可用性) 若要執行即時且方便的入口網站 UI 健康情況檢查,各個資源的客戶可以快速檢視入口網站上的 RHC 面板。 他們也可以存取該資源健康情況檢查的 30 天歷程記錄檢視,以便快速且輕鬆地進行疑難解答。

整體 VM 可用性監視

如需監視 VM 可用性的整體方法,包括例行維護、即時移轉、服務修復和 VM 效能降低的案例,建議您同時使用 已排程事件 (SE) 和 Flash 健康情況事件。

排程事件設計的目的在於提供維護活動前最多15分鐘的提前警告。 此提前時間可讓您針對即將發生的停機做出明智決策,使您能夠避免或準備應對停機。 您可以根據您對即將進行的維護的準備情況,在這 15 分鐘期間選擇是否接受或延後處理這些事件。

另一方面,Flash Health 事件專注於即時追蹤正在進行和已完成的可用性中斷,包括 VM 效能降低。 這項功能可讓您有效地監視及管理停機時間、支援自動化風險降低、調查和驗屍分析。

若要開始您的可觀測性旅程,您可以探索提供高品質 VM 可用性數據的 Azure 產品套件。 這些產品包括 資源健康情況活動記錄Azure 資源圖表Azure 監視器計量Azure 事件方格系統主題

後續步驟

若要深入了解提供的解決方案,請繼續參閱對應的解決方案文章:

如需如何監視 Azure 虛擬機器的一般概觀,請參閱監視 Azure 虛擬機器監視 Azure 虛擬機器的參考資料