Hierarchia niezawodności Dickersona
- 3 min
Mapa Ulepszanie niezawodności ścieżka szkoleniowa opiera się na modelu ze świata inżynierii niezawodności lokacji o nazwie Hierarchia niezawodności Dickersona. Mikey Dickerson był SRE, który został administratorem założycieli United States Digital Services. Stworzył tę hierarchię, będąc w obliczu jednego z największych kryzysów niezawodności w historii.
Model jest wzorowany na hierarchii potrzeb Abrahama Maslowa, która odpowiada ludzkiej motywacji. Podobnie jak w przypadku hierarchii Maslowa, aby przejść w górę hierarchii, należy upewnić się, że każdy z niższych poziomów został najpierw rozwiązany. Poziomy, na których skupiamy się w tej ścieżce szkoleniowej, od dołu do góry, to:
Nadzorowanie
Ten poziom jest ważnym fundamentem, na którym spoczywają inne poziomy. Jest to źródło informacji, które umożliwiają konkretne rozmowy na temat niezawodności w organizacji wokół obiektywnych danych. Podczas wprowadzania zmian ta praktyka polega na tym, jak znasz efekt. W jeszcze bardziej wyraźnych słowach, ta praktyka pokazuje, czy rzeczywiście coś się poprawia, czy nie. Dopóki nie opanujesz monitorowania, nie będziesz w stanie wykonać reszty pracy.
Reagowanie na zdarzenia
Każde środowisko produkcyjne ma pewną awarię. Nie ma wątpliwości co do tego faktu. Następnie pytania stają się "co zrobić, gdy wystąpi zdarzenie? Co się dzieje, kiedy systemy są wyłączone i klienci są dotknięci? Potrzebny jest standardowy proces, który jest skuteczny w ocenianiu i ustalaniu priorytetów rozwiązywania problemu, zaangażowaniu odpowiednich zasobów, a następnie łagodzeniu problemu. Jednocześnie chcesz mieć pewność, że komunikujesz się z uczestnikami projektu na temat problemu.
Przegląd po zdarzeniu (uczenie się po awarii)
Ten proces umożliwia nam wyrównanie naszych praktyk operacyjnych przez wspólne badanie, przeglądanie i omawianie doświadczeń każdego istotnego incydentu. Przegląd po zdarzeniu pozwala nam uczyć się od awarii i ma kluczowe znaczenie dla pracy nad niezawodnością.
Testowanie/wydawanie (wdrożenie)
Następny poziom koncentruje się na naszych procesach testowania, wydawania i wdrażania. Ten poziom można traktować jako "jak dobrze tworzysz systemy i procesy, które mogą przechwytywać problemy, zanim spowodują one zdarzenia?"
Planowanie/skalowanie pojemności
Sukces i towarzyszący mu wzrost mogą być równie dużym zagrożeniem dla niezawodności, jak każdy problem z systemem. Klient nie może powiedzieć różnicy między systemem, który nie działa, ponieważ występuje usterka w kodzie, a taka, która nie działa, ponieważ nie może obsłużyć obciążenia zbyt wielu osób próbujących jednocześnie uzyskać do niego dostęp. Ten poziom hierarchii kieruje nas do zwracania uwagi na planowanie i skalowanie pojemności jako sposoby rozwiązania tego zagrożenia.
Proces deweloperski i środowisko użytkownika
W hierarchii znajdują się jeszcze dwa poziomy, które nie są uwzględniane w Ulepszanie niezawodności ścieżki szkoleniowej: proces programowania i praca, która umożliwia tworzenie dobrego środowiska użytkownika (UX). Te dwa tematy nie są omawiane w ścieżce szkoleniowej Ulepszanie niezawodności, ale dostępne są inne dobre moduły szkoleniowe na te tematy.
Utworzyliśmy oddzielny moduł learn dla każdego poziomu w hierarchii niezawodności. Mamy nadzieję, że dołączysz do nas dla wszystkich pięciu modułów w tej ścieżce szkoleniowej.