Wprowadzenie do usługi SRE

Ukończone

W ramach końcowej lekcji w tym module pomówmy o tym, co robić dalej, jeśli interesujesz się zgłębianiem inżynierii SRE.

Czytanie i oglądanie

Aby uzyskać szczegółowe informacje o inżynierii SRE, najlepszym źródłem będą trzy opublikowane książki w tym temacie

  1. Inżynieria niezawodności lokacji: jak Firma Google uruchamia systemy produkcyjne (znane jako "Książka SRE")
  2. Skoroszyt niezawodności witryny: praktyczne sposoby implementowania SRE (nazywanego skoroszytem SRE)
  3. Szukasz SRE: rozmowy na temat uruchamiania systemów produkcyjnych na dużą skalę

(Wyjaśnienie: główny autor tego modułu jest również opiekunem/redaktorem trzeciej książki)

Każda z tych książek zapewnia ważny zestaw informacji:

  • Książka SRE: Zawiera szczegółowe wyjaśnienie sposobu implementacji SRE przez firmę Google na przestrzeni lat.

  • Zeszyt Ćwiczeń SRE: Towarzysząca książce SRE publikacja, która oferuje bardziej szczegółowe wyjaśnienia nie tylko na czym polega SRE w Google i kilku innych miejscach, ale również jak i dlaczego.

  • Poszukiwanie SRE: Zapewnia szersze spojrzenie na świat SRE poza jego źródło, w tym informacje na temat tego, jak SRE zostało wdrożone w innych środowiskach.

Pamiętaj, aby przeczytać wszystkie trzy książki z krytycznym podejściem. Nie wszystko napisane w tych książkach może dotyczyć Ciebie i Twojej organizacji. Pośmiń trochę czasu, aby zidentyfikować pewne informacje, które mogą zapewnić pewną wartość dodatnią. Pomyśl o tym, które części kultury i wartości w organizacji mogą wspierać inżynierię SRE zgodnie z opisem, a które mogą stanowić większe wyzwanie.

Jeśli okaże się, że jesteś bardziej osobą wizualną, spróbuj obejrzeć talk Keys to SRE by Ben Treynor na konferencji SREcon14. Treynor zawiera cogent wyjaśnienie, czym jest inżynieria SRE (przynajmniej w kontekście Google). Inne nagrane rozmowy na temat SRE z tej serii konferencji i inne mogą być również przydatne.

Porozmawiaj z innymi zainteresowanymi osobami

Równie ważne jak czytanie o inżynierii SRE może być porozmawianie o tym rozwiązaniu ze współpracownikami. Dyskusja na temat wyzwań, sukcesów i niepowodzeń związanych z inżynierią SRE może mieć kluczowe znaczenie dla uzyskania zniuansowanego zrozumienia tematu.

Istnieje wiele spotkań i konferencji, które zawierają zawartość SRE. Być może najbardziej istotne jest globalnie rozproszone konferencje SREcon wprowadzone przez USENIX (zastrzeżenie: główny autor tego modułu jest jednym z współzałożycieli SREcon).

Jeszcze więcej zawartości SRE dociera do konferencji, takich jak Velocity, LISA i lokalnych konferencji DevOps, takich jak DevOps Days. Szukaj tych treści i innych osób zainteresowanych tematem wszędzie tam, gdzie możesz je znaleźć.

Pierwsze kroki w pracy

Ważne jest, aby pamiętać, że SRE nie jest propozycją "wszystkiego lub nic". Jeśli chcesz rozpocząć eksplorowanie sposobu wprowadzenia inżynierii SRE do środowiska, możesz rozpocząć wdrażanie zasad i praktyk inżynierii SRE w małych krokach.

Mikey Dickerson jest dobrze znanym SRE w oparciu o swoją pracę w tym, co stałoby się Stany Zjednoczone Digital Service. Byli odpowiedzialni za zapisywanie healthcare.gov. Zaproponował hierarchię niezawodności w hołdze hierarchii potrzeb Maslowa. Jest cytowany w sekcji Praktyki pierwszej książki SRE.

Ta hierarchia proponuje, aby najpierw uzyskać funkcjonalne i godne zaufania monitorowanie w środowisku. Monitorowanie musi być również pierwszym krokiem w kierunku SRE dla środowiska. Nie można powiedzieć, czy coś jest niezawodne (lub czy poprawia/pogarsza się), jeśli nie można tego zmierzyć.

Po utworzeniu platformy monitorowania możesz zaufać, następnym dostępnym krokiem jest wybranie usługi w pracy. Następnie zacznij prowadzić rozmowy SLI i SLO na ten temat. Rozpocznij od czegoś prostego. Utwórz wskaźniki SLA i cele SLO dla usługi, zaimplementuj je w systemie monitorowania i zobacz, co się dzieje, gdy zaczniesz zwracać uwagę na niezawodność przy użyciu obiektywu SRE. Te kroki są doskonałym miejscem do rozpoczęcia.