Remediacja
- 7 min
Podzielenie cyklu życia reagowania na zdarzenia na pięć faz, jak pokazano w tym module, pomaga zrozumieć proces, ale fazy nie zawsze są tak odrębne, jak na diagramie. W szczególności linia między fazami odpowiedzi i korygowania często zaczyna się rozmyć. Jest to szczególnie istotne, gdy działania mające na celu złagodzenie lub poprawę sytuacji mają odwrotny skutek. W takim przypadku odpowiedź i remediacja zwykle nakładają się na siebie lub przechodzą z jednej do drugiej.
W tej lekcji dowiesz się więcej na temat korygowania i kroków, które składają się na tę fazę, a także kilka przydatnych wskazówek i narzędzi. Należy pamiętać o tym, że nie należy podejmować działań opisanych tutaj jako normatywnej listy kontrolnej.
Jeśli rzeczywiście masz listę kontrolną do naprawy już w ręku, często jest to wskaźnik, że nadszedł czas, aby rozważyć automatyzację. Kiedy możesz opisać dokładnie to, co należy zrobić i w jakim celu skorygować problem, to idealny czas, aby nauczyć te kroki maszyny, aby system mógł to zrobić za Ciebie.
Gdzie zacząć
Wiesz już, jak ważne jest skrócenie czasu reakcji na zdarzenie. Teraz przyjrzyjmy się kilku rzeczom, które mogą przyspieszyć proces korygowania lub rozwiązywania problemu.
Różni członkowie zespołu mogą mieć różne modele psychiczne pracy i różnych pomysłów co do tego, co powinno być pierwszym krokiem. Można najpierw przyjrzeć się dziennikom, podczas gdy inne mogą najpierw uruchamiać zapytania i przeglądać metryki. Nie ma jednej właściwej ścieżki do sukcesu.
Pomaga to jednak zapewnić ludziom kontekst i wskazówki dotyczące tego, gdzie powinni iść i co powinni przyjrzeć.
Jak eskalować i do kogo się zwrócić
Ważne pytanie, na które należy odpowiedzieć podczas formułowania punktu początkowego korygowania, to: kiedy utkniesz, do kogo możesz się zwrócić, aby eskalować problem? Należy starać się przekazać więcej obowiązków związanych z dyżurem całemu zespołowi, a nie tylko działowi Operacji lub Inżynierii Niezawodności Stron. Powinno to być obowiązkiem wszystkich członków zespołu, aby systemy działały i spełniały cele dotyczące niezawodności.
Jakie zasoby są przydatne dla pierwszych osób odpowiadających?
Następnym zagadnieniem jest określenie tych rzeczy, których pierwsza osoba odpowiadająca może użyć do rozpoczęcia procesu. Może to obejmować odpowiednie metryki, dzienniki, zapytania itd. Powinny one zostać udostępnione w skoroszycie platformy Azure/przewodniku rozwiązywania problemów, jeśli jest to możliwe. Porozmawiamy o nich za chwilę.
Przydatne jest również udostępnienie prostych linków do zasobów (często w przewodniku rozwiązywania problemów). Jeśli Twoim celem jest reagowanie i korygowanie problemu tak szybko, jak to możliwe, pomoc osobom w znalezieniu odpowiedzi na pytania bez konieczności wyszukiwania odpowiedniego dokumentu lub adresu URL przyspieszy proces.
Aktualizowanie uczestników projektu
Możesz się tak skupić na rozwiązaniu problemu, że możesz zapomnieć, że istnieje wiele osób, które nie są bezpośrednio zaangażowane w reakcję na incydent, ale chcą i muszą wiedzieć, co się dzieje.
Ważne jest, aby komunikować się z innymi zespołami wewnętrznymi i informować ich o tym, co się dzieje w przypadku wystąpienia zdarzenia. Jeśli nie udostępnisz im spójnych aktualizacji, prawdopodobnie pojawi się prośba o aktualizację stanu. Mają wszelkie prawa do tych informacji, ale potrzebujesz lepszego sposobu, aby uświadomić im problem i co się z tym dzieje.
Musisz jasno powiedzieć o uznaniu dla swoich zespołów wewnętrznych. Bądź jasny, przedstawiając to, co wiesz i co robisz, i ustalaj oczekiwania pod względem tego, kiedy usłyszą od Ciebie.
Formuła komunikacji z uczestnikami projektu jest prosta:
- To jest to, co wiemy.
- To jest to, co robimy.
- Wrócimy do Ciebie za X czas.
Pomoże to zapobiec zbliżaniu się zainteresowanych stron i przerywaniu pracy, gdy jesteś w środku próby rozwiązania problemów.
Jednym ze sposobów rozpowszechniania tych informacji jest użycie łatwo edytowalnej strony internetowej ze stanem, takiej jak ta, o której wspomnieliśmy w ostatniej lekcji. W wielu przypadkach możesz mieć oddzielną, bardziej szczegółową stronę stanu dla wewnętrznych osób biorących udział w projekcie i zewnętrzną dla klientów. Poprzednia formuła działa w obu przypadkach.
Korzystanie ze skoroszytów usługi Azure Monitor i przewodników rozwiązywania problemów
Platforma Azure ma dwie ściśle powiązane funkcje, które mogą być niezwykle przydatne dla zespołu w fazie naprawy: Skoroszyty usługi Azure Monitor i Przewodniki usługi Application Insights do rozwiązywania problemów. Na potrzeby tego modułu są one wymienne, w tym z tym, że mają ten sam interfejs użytkownika. Skoroszyty usługi Azure Monitor można znaleźć w portalu Azure w obszarze Azure Monitor. Przewodniki rozwiązywania problemów z usługą Azure Insights znajdziesz w witrynie Azure Portal po wybraniu wystąpienia usługi Applications Insights.
Skoroszyty i przewodniki rozwiązywania problemów można postrzegać jako "dokumenty na żywo", które można tworzyć za pomocą interfejsu do tworzenia stron. Podczas tworzenia nowego możesz dodać do strony:
- Dowolny tekst, taki jak lista punktowana elementów do wykonania lub inne przydatne informacje dla kogoś, kto konsultuje stronę
- Linki do innych systemów, na przykład linki do innych pulpitów nawigacyjnych lub dokumentacji
- Zapytania w języku Kusto (KQL)
Jest to ostatni element, który sprawia, że dokument jest "żywy". W poprzednim module w tej ścieżce szkoleniowej zapoznaliśmy się z językiem zapytań KQL wbudowanym w usługę Log Analytics i innymi częściami usługi Azure Monitor. Korzystając z tego języka, możemy napisać własne zapytania, aby zwracać i wyświetlać informacje diagnostyczne z naszej aplikacji i infrastruktury platformy Azure. Po wstawieniu zapytania KQL do skoroszytu lub przewodnika rozwiązywania problemów bieżące wyniki tego zapytania są wyświetlane na żywo dla czytelników dokumentu. Oznacza to, że przewodnik rozwiązywania problemów może powiedzieć nie tylko "Pamiętaj, aby sprawdzić szybkość błędów na serwerze internetowym", ale może również wyświetlić bieżący wykres dla tego współczynnika błędów bezpośrednio obok instrukcji. Może zawierać link, taki jak "oto dokumentacja restartu serwera internetowego", który kieruje pierwszą osobę odpowiedzialną bezpośrednio do potrzebnej dokumentacji.
Platforma Azure udostępnia również niektóre istniejące szablony ułatwiające rozpoczęcie tworzenia własnych dokumentów. Oto zrzut ekranu przedstawiający niektóre wstępnie utworzone szablony, które mogą być oferowane:
Istnieje funkcja edytora zaawansowanego dla skoroszytów i przewodników rozwiązywania problemów, która umożliwia dostęp i wstawienie w tym dokumencie zarówno pliku JSON, jak i reprezentacji szablonu Azure Resource Manager. Oznacza to, że można śledzić i rozpowszechniać te dokumenty przy użyciu wybranego systemu kontroli źródła. Umożliwia również zautomatyzowanie aprowizacji skoroszytów lub przewodników rozwiązywania problemów, co jest przydatne podczas aprowizowania innej infrastruktury. Utworzenie zestawu niestandardowych dokumentów rozwiązywania problemów towarzyszących nowej usłudze w czasie wdrażania usługi staje się łatwe dzięki zastosowaniu najlepszych praktyk.
Inne przydatne porady i narzędzia
W tym module przedstawiono różne narzędzia i skróty, których można użyć do zwiększenia wydajności i skrócenia czasu reagowania na zdarzenia. Po podsumowaniu tej ostatniej lekcji przedstawimy krótkie omówienie niektórych narzędzi i technik, które są pomocne w diagnozowaniu problemów w systemach.
- Możesz użyć linku do Pulpitu nawigacyjnego w usłudze Application Insights, aby automatycznie wygenerować pulpit nawigacyjny zawierający większość kluczowych elementów, których potrzebujesz na początek. Należy pamiętać, że nie obejmuje ona usługi Azure Service Health. Należy przypiąć go do pulpitu nawigacyjnego, aby sprawdzić, czy problem dotyczy systemów, czy z samą usługą w chmurze.
- Możesz użyć mapy aplikacji w usłudze Application Insights, aby dokładnie przeanalizować, co powoduje problemy. Możesz skorzystać z okruszków, aby znaleźć przyczynę błędu (na przykład źle sformułowany adres URL).
- Usługa Log Analytics umożliwia wykonywanie zapytań względem dowolnej części systemu.
Wszystkie powyższe narzędzia są bezcenne w rozwiązywaniu problemów.