管理 Azure 環境不僅僅是保持燈亮。 這是為了維護治理和安全性,同時確保您的雲端隨著時間的推移與業務目標保持一致。 隨著環境的成長,您需要防止組態漂移、透過基礎結構即程式碼改善部署,以及有效管理變更。
雲端採用架構 (CAF) 管理方法引進 RAMP 方法 (就緒、管理、監視、保護) 來協助您建置這些功能。 RAMP 提供結構化的方式來組織小組、定義責任,以及實作程序和工具,以保持 Azure 作業的安全、合規和復原。 從日常管理到監控運行狀況和防止中斷,RAMP 可幫助您為長期成功建立強大的運營基礎。
確定您的管理職責
有效的 Azure 管理跨越兩個責任層: 中央 (平臺) 責任和 工作負載 責任。 核心責任適用於整個雲端資產。 工作負載責任著重於個別應用程式或服務。 使用 表 1 確保您的營運模式涵蓋雲端管理的基本領域
資料表 1。 主要雲端管理職責
| 雲端管理區域 | 中央(平台)職責 | 工作量責任 |
|---|---|---|
| Compliance | ▪ 定義 作業程序。 ▪ 強制執行 治理政策。 ▪ 監控合規性 並視需要進行補救或升級。 |
▪ 遵循操作程序。 ▪ 使設計與治理策略保持一致。 |
| 安全性 | ▪ 管理組織範圍內的安全 作業。 ▪ 在 Microsoft Entra ID 中管理身分識別。 ▪ 授與 Azure 訂用帳戶的 存取權 。 ▪ 透過 Azure 原則 和適用於雲端的 Microsoft Defender 定義和維護安全性基準。 ▪ 監督威脅防護和事件回應與 Microsoft Sentinel 的整合。 |
▪ 實作 安全的工作負載設計。 ▪ 回應工作負載特定的安全性警示和事件。 ▪ 持續評估工作負載內的漏洞。 |
| 資源管理 | ▪ 定義和維護 資源階層。 ▪ 根據要求建立工作負載訂閱。 ▪ 定義 命名和標記策略。 ▪ 定義 網路拓撲。 ▪ 設定共用網路 (虛擬網路對等互連、內部部署連線)。 ▪ 管理跨工作負載或共用資源/服務。 ▪ 監控訂閱 限制 並處理配額增加請求。 |
▪ 如受委派,管理特定於工作負載的訂用帳戶。 ▪ 管理每個工作負載的資源群組和資源。 ▪ 遵守並套用命名和標記標準。 ▪ 管理應用程式層級的資源使用率,確保資源保持在訂閱配額內。 |
| 部署 | ▪ 標準化及控管 CI/CD 管線和工具 (Azure DevOps、GitHub Actions) 。 ▪ 定義參考基礎結構即程式碼範本 (Bicep、Terraform、ARM 範本) 。 ▪ 提供管線安全性的中央最佳做法 (程式碼掃描、秘密管理)。 |
▪ 使用中央 CI/CD 架構和 IaC 範本進行 工作負載部署。 ▪ 實作工作負載特定的部署工作 (設定應用程式設定、資料庫)。 ▪ 根據工作負載需求調整參考範本,同時遵守中央準則。 |
| 發展 | ▪ 提供並強制執行標準化開發工具鏈和架構,以加速一致性 (編碼標準、DevOps 最佳實務)。 ▪ 維護共用程式庫或模組的內部儲存庫或套件摘要。 |
▪ 採用並調整標準工具鏈以進行 工作負載開發。 ▪ 擁有應用程式生命週期並納入最佳實踐(單元測試、整合測試)。 ▪ 管理工作負載程式碼庫的持續改善。 |
| 監測 | ▪ 規劃 監控策略。 ▪ 關於職責集中化的 警示。 ▪ 提供整個環境中常見作業計量的儀表板。 |
▪ 監控 工作負載 ▪ 擴充或微調中央警示,以擷取工作負載特定條件。 ▪ 根據警示和記錄來調查和補救工作負載層級事件。 |
| 費用 | ▪ 配置全域或訂閱層級雲端預算 ▪ 監控組織範圍內的 雲端支出 並建立成本報告。 ▪ 將成本分配給業務單位或產品,通常使用標籤或自訂成本分配模型。 ▪ 套用標記策略進行成本分配。 |
▪ 成本最佳化 工作負載設計 ▪ 尊重預算限制。 |
| Reliability | ▪ 定義每個工作負載優先順序的 可靠性需求 (SLO、RPO、RTO)。 ▪ 提供商務持續性和災害復原 (BCDR) 的指引。 ▪ 管理集中式 災難復原 解決方案。 ▪ 支援所有工作負載的重大事件管理。 |
▪ 設計工作負載以符合 可靠性需求。 |
| Performance | ▪ 監控和維護集中式元件(集線器網路、共用服務)的效能。 ▪ 提供效能最佳化和容量規劃的指導方針。 ▪ 監視配額 |
▪ 設計工作負載以提高 效能效率。 |
建立您的雲端運營
使用 表 1 中概述的職責來建立有效的營運基礎。 按照以下步驟明確定義團隊、標準和流程:
定義您的雲端作業模型。 根據組織的規模和成熟度選擇集中式、共用管理或分散式雲端營運模式。 如需指引,請參閱 選擇雲端作業模型
指派中央平台責任。 組建專門的團隊來處理中央管理任務。 從 表 1 中開發技能矩陣以確定所需的專業知識。
指派工作量責任。 為工作負載特定任務設定專門團隊。 使用 表 1 確定職責,然後相應地招募。 使用 Azure Well-Architected Framework 及其 卓越營運 支柱來引導您的工作負載管理責任。
指派責任。 為所有雲端管理責任指定特定擁有者。 在共用管理模型中,工作負載小組應該擁有管理其訂用帳戶的自主權。
記錄您的雲端作業
清楚記錄您的雲端營運,以實現高效的危機回應和順利實施變更。 建立總體程序並為頻繁和特定任務創建詳細指南。
記錄作業程序
定義操作程序,以管理自動化無法處理的變更、災難復原和例行維護任務。 執行下列步驟:
定義變更管理程序。 變更是雲端失敗的主要原因。 開發標準化流程來管理變更,以避免雲端環境中發生故障。 請參閱 管理變更。
定義部署程序 (發行管理)。 若要保持一致的組態,請標準化您的部署、發行和環境升級。 請參閱 管理部署。
定義災難復原和業務連續性程序。 若要處理潛在的故障,請準備標準化的回應計劃。 請參閱管理災難復原和商務持續性。
定義其他程序。 記錄管理服務請求、修補和組態管理的流程。 清楚地記錄這些流程,以確保利害關係人知道如何啟動或完成每項任務。
紀錄操作指引
為關鍵作業任務建立詳細的步驟指南(執行手冊或操作手冊)。 這種準備工作可確保一致的執行、提高效率並縮短關鍵事件期間的解決時間。
定義日常任務。 準備涵蓋日常職責的手冊,例如權限提升請求和日誌審查。 建立標準作業程序 (SOP),以監控每個系統的指標、警示閾值和儀表板。
建立以 Azure 為中心的 Runbook 程式庫。 建立 Azure 特定的 Runbook,以解決案例,例如:
Scenario Example 高 CPU 使用率 在 Azure App Service 中管理向上調整規模 容錯移轉和容錯回復 Azure Site Recovery 中的容錯移轉和容錯回復 藍/綠部署 Azure Front Door 中的藍/綠部署 備份還原 Azure Blob 儲存體和 Azure Cosmos DB 中的備份還原 將這些 Runbook 存放在中央儲存庫中。 在中央儲存庫中維護 Runbook,供隨叫隨到的工程師存取,以便在事件發生時立即使用。
以程式設計方式實作作業。 將基礎結構即程式碼整合到您的執行手冊中,以便每次都能一致且準確地部署通用資源。
審查和更新。 定期審查和修訂文檔以反映運營調整和雲服務更新。
文件工具和解決方案
清晰的文件可確保一致性、降低營運風險並提高團隊效率。 建立和維護雲端工具的全面文件。 定期更新文件以反映當前實踐並確保所有團隊成員都能輕鬆存取。
| Area | 優點範例 |
|---|---|
| Integration | 標準化透過整合日誌和程式碼儲存庫來簡化整合。 |
| Automation | 跨團隊重複使用 IaC 範本、自動化指令碼和跨專案的最佳實務。 |
| 事件管理 | 捕捉錯誤並產生補救措施,以整合到版本週期中。 |
管理您的雲端作業
有效的雲端管理可以優化營運效率、減少停機時間並明確角色和職責。 透過自動化和結構化支援流程標準化您的雲端營運。 請遵循下列作業準則:
提供持續的雲端支援。 通過採用隨波逐流模式的全球團隊或結構化隨叫隨到的輪換來建立 24/7 支持覆蓋範圍。 明確定義職責,確保及時回應和解決重大事件。 設定自動 警報 以立即通知指定的支援人員。
自動化重複性工作。 使用 Azure 自動化功能將手動程式降到最低,並減少作業額外負荷。 自動化日常活動以消除錯誤、簡化工作流程,並使團隊能夠專注於策略優先事項。
用例 範例 Automation 將 Azure Boards 或 ITSM 系統中的工作流程自動化。 「變更要求」和「事件」工作專案的範本。 事件回應 若要自動產生填入標準欄位的事件票證,請將 Azure Monitor 和 Azure Service Health 整合到票證系統中。 變革管理 使用 Azure Logic Apps 自動核准低風險變更或自動補救特定事件。 Compliance 使用 Azure 原則 來強制執行和監視雲端合規性。 安全性 使用適用於雲端的 Microsoft Defender 和 Microsoft Sentinel 將安全性威脅偵測和回應自動化。 使用 Microsoft Entra ID 控管來檢閱許可權並自動化許可權管理。
改善營運
透過促進持續改進來優化您的 Azure 雲端環境。 定期評估運營並優先考慮持續學習和反饋。 執行下列步驟:
審查操作以改進。 遵循最佳實務來 監控 健康情況、合規性、安全性、成本、資料和雲端資源。 每週進行營運審查,討論關鍵指標、最近的事件、部署的變更和預期風險。 積極解決 資源蔓延 和 技術債務。
為行動進行培訓。透過優先考慮必要的學習資源來促進持續的技能發展。 透過實務訓練環境維護動態雲端作業。 下表提供作業訓練的資源。
操作培訓 Description 取得認證 設定 Microsoft 認證的目標,例如應用技能和 Microsoft 認證,以建立專業知識。 使用營運資源 請參閱 Azure 管理資源。 使用產品文件 使用 Microsoft Learn 來尋找 Azure 服務的指引。 進行實踐練習 鼓勵在非正式沙箱環境中進行實際操作練習。
Azure 管理資源
| 類別 | 管理資源 | Description |
|---|---|---|
| Compliance | CAF 治理 | Microsoft 的雲端治理架構 |
| 安全性 | 管理安全性作業 | 管理安全性作業的指引 |
| 安全性 | Microsoft 安全性工具 | Microsoft 和 Azure 安全性工具清單 |
| 安全性 | 工作負載安全 | 安全工作負載指引 |
| 資源管理 | 命名和標記策略 | 管理資源的命名和標記建議 |
| 資源管理 | Azure 縮寫 | Azure 資源的縮寫清單 |
| 資源管理 | Azure 顧問 | 符合 Azure 最佳做法的數位助理。 |
| 資源管理 | Azure 命名規則 | 所有 Azure 資源的命名規則 |
| 資源管理 | Azure 服務指南 | 服務組態決策指引 |
| 發展 | 工作負載軟體開發 | 軟體開發的工作負載指引 |
| 發展 | Azure 架構中心 | 不同使用案例的架構和指南 |
| 發展 | 開發人員資源中心 | 開發人員工具和資源的中心 |
| 部署 | Bicep、Terraform 和 ARM 範本 | 每個 Azure 資源的 IaC 範本 |
| 部署 | Azure 區域配對 | Azure 配對區域清單 |
| 部署 | Azure 雲端服務目錄 | 所有 Azure 服務的目錄 |
| 部署 | 工作負載部署 | 持續整合的工作負載指南 |
| 監測 | 監視您的 Azure 雲端資產 | 完整的 Azure 監視指引 |
| 監測 | 工作負載監控 | 監視工作量指引 |
| 費用 | 管理成本 | 成本管理指引 |
| 費用 | 工作負載成本最佳化 | 成本最佳化工作負載指南 |
| Reliability | 管理資料可靠性 | 維護資料可靠性的指引 |
| Reliability | 管理雲端資源可靠性 | 維護資源可靠性的指引 |
| Reliability | 管理安全性事件 | 回應安全性事件的建議 |
| Performance | 工作負載效能效率 | 效能效率的工作負載指引 |