可靠性的 Dickerson 階層
- 3 分鐘
改善可靠性學習路徑的地圖是以網站可靠性工程世界中稱為 Dickerson 可靠性階層的模型為基礎。 邁基·迪克森是一名SRE,成為美國數位服務的創始系統管理員。 他創造了這個階層,同時面臨著有史以來最大的可靠性危機之一。
模型是以亞伯拉罕·馬斯洛 的需求階層為模式,以解決人類動機。 如同 Maslow 的階層,若要爬上階層,您必須確定每個較低層級的需求都已先滿足。 我們在此學習路徑中著重於的層級,從下到上,都是:
監測
這個層級是其他層級賴以存在的重要基礎。 這是可讓您就目標數據在組織中可靠性進行具體對話的資訊來源。 當您進行變更時,這種做法就是您知道效果的方式。 用更明顯的方式來說,這種做法是用來判斷事情是否有所改善。 在確信監視可靠之前,您無法完成其餘的工作。
事件回應
每個生產環境都有某種中斷。 這一事實沒有爭議。 問題會變成「事件發生時您該怎麼辦? 當系統關閉且客戶受到影響時,會發生什麼事?您需要有效的標準程式,以分類問題、取得適當的資源,然後減輕問題。 同時,您也想要確定您正在與專案關係人溝通問題。
事件後檢閱 (從失敗中學習)
此程式可讓我們藉由集體調查、檢閱和討論每個重大事件的經驗,來提升營運實務。 事件後檢閱可讓我們從失敗中吸取教訓,對可靠性工作至關重要。
測試/發行(部署)
下一個層級是著重於我們的測試、發行和部署流程。 您可以將這個層級視為「您在建立系統和流程方面有多優秀,能在問題演變成事故之前就察覺並解決?」
容量規劃/調整
成功和隨之而來的成長,可能就像系統發生任何問題一樣,對可靠性的威脅也一樣大。 客戶無法分辨系統是因程式代碼中的錯誤而無法運作,還是因為無法承受過多使用者同時存取的負載壓力而無法運作。 這一個階層層級會將我們的注意力導向容量規劃與擴縮,作為解決該威脅的方式。
開發程式與用戶體驗
在 改善可靠性 學習路徑中,階層中還有兩個層級無法解決:開發流程和進行良好用戶體驗的工作(UX)。 這兩個主題不會在 改善可靠性 學習路徑中討論,但這些主題的其他良好學習課程模組可供使用。
我們已針對可靠性階層中的每個層級建立個別的 Learn 課程模組。 我們希望您參加此學習途徑中的所有五個課程模組。