Dokumentacja inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji to dyscyplina poświęcona pomaganiu organizacji w trwałym osiągnięciu odpowiedniego poziomu niezawodności w zakresie systemów, usług i produktów.
Zwiększanie niezawodności dzięki nowoczesnym rozwiązaniom dotyczącym operacji
Kursy online z zakresu inżynierii niezawodności lokacji
Zasoby dotyczące inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji na platformie Azure
Dokumentacja dla inżynierów niezawodności lokacji
Architektura
Wykłady na temat inżynierii niezawodności lokacji od firmy Microsoft
Kultura
- Ewolucja inżynierii niezawodności lokacji
- Kompilowanie SRE: kultura z zewnątrz w
- Niuanse kulturowe i efektywna współpraca zespołów wielokulturowych
- Ewolucja inżynierii niezawodności lokacji i rosnące zapotrzebowanie na osoby katalizujące inżynierię niezawodności lokacji
- Pętle opinii: jak korzyści ze sprzężeń ściągnięć i jakie elementy są potrzebne do realizacji ich potencjału
- Dzięki poznaniu metryk biznesowych możesz stać się lepszym inżynierem niezawodności lokacji
- Niekończąca się opowieść niezawodności lokacji
- W dziale operacji codziennie jest poniedziałek
Reagowanie na zdarzenia i przeglądy po zdarzeniach
Monitorowanie i wgląd
- Ponad 600 milionów członków i setki mikrousług: jak skalowaliśmy nasz system monitorowania, aby nadążyć
- Poza pobitą ścieżką: przenoszenie fokusu obserwacji z twojej usługi do klienta
- Znasz to, co mierzysz — dlaczego metryki są ważne
- Weathering the Storm: How Early Warnings Save the Farm
- Przechwytywanie i analizowanie milionów zapytań bez narzutu
- Korelacja zdarzeń: nowe podejście do zmniejszania mtTR
- Jak niezawodne monitorowanie zapewnia wysoką dostępność dla kanału informacyjnego LinkedIn
- Zmniejszenie liczby eskalacji MTTR i false: korelacja zdarzeń w serwisie LinkedIn
Rozwiązania i reguły
- Dostępność — myślenie nie tylko o dziewiątkach
- Modele mentalne dla inżynierów niezawodności lokacji
- Priorytetyzowanie zaufania podczas tworzenia aplikacji
- Język Java nienawidzi systemu Linux. Pogódź się z tym.
- Charakteryzowanie faz rozwiązań inżynierii niezawodności lokacji i informacje o nich
- Zabezpieczenia i SRE: mnożniki sił naturalnych
- Przegląd poprawy produkcji: Biorąc ukąszenie z długu naprawy
- Zapewnianie niezawodności aplikacji o wysokiej wydajności
- Karta wyników usługi — grywalizowanie doskonałości operacyjnej
- Jak ulepszyć usługę, krytykując ją
Zespoły i zarządzanie
- Code-Yellow: Pomoc w operacjach najwyższej klasy zespołów w inteligentny sposób
- Prowadzenie bez zarządzania: bycie liderem technicznym SRE
- Różnice w implementacjach inżynierii niezawodności lokacji w różnych firmach
- 100 zespołów, 100 przyczyn niepowodzeń
- Wszystko, co trzeba wiedzieć o rozpoczynaniu zaangażowania w inżynierię niezawodności lokacji
- Budowanie zespołów inżynierii niezawodności lokacji i kierowanie nimi
- Student do SRE: Dołączanie talentu na poziomie wejścia
- LinkedIn SRE: od powstania do skali globalnej
- Składanie sekwencji DNA inżynierii niezawodności lokacji w największej firmie tworzącej oprogramowanie na świecie
- Transformacja gąsienic warstwy 1 w motyle
Narzędzia i technologie
- Azure SREBot: Więcej niż czatbot — inteligentny bot, który zmiażdży czas ograniczania ryzyka
- TrafficShift: unikanie awarii na dużą skalę
- Tworzymy rozproszony system plików
- TCP — architektura, ulepszenia i dostrajanie
- BGP — szkielet Internetu
- Operacje w środowisku bezserwerowym
- Jak przeskalowaliśmy infrastrukturę bazy danych za pomocą platformy Kafka
- Sieci dla srEs: co muszę wiedzieć na temat rozwiązywania problemów z aplikacjami
- Ambry — rozproszony niezmienny magazyn obiektów serwisu LinkedIn
- BPerf — profilowanie w chmurze Bing.com w środowisku produkcyjnym
- DNS: stare rozwiązanie nowoczesnych problemów
- Sterowanie ruchem przy użyciu systemu DNS w oparciu o rzeczywiste pomiary użytkowników w serwisie LinkedIn
Skalowanie
- Prognozowanie ruchu i testowanie przeciążeniowe infrastruktury
- Uczenie na dużą skalę jest trudne! Analiza wzorców awarii przestojów i zanieczyszczone dane
- Skalowanie rozproszonego systemu stanowego: analiza przypadku serwisu LinkedIn
- Debugowanie na dużą skalę — przechodzenie z jednego komputera do środowiska produkcyjnego
- Tworzenie scentralizowanej infrastruktury pamięci podręcznej na dużą skalę
- Skalowalne kodowanie — znajdowanie błędów
- Zarządzanie pojemnością w serwisie LinkedIn
- InStream: dystrybucja na dużą skalę przy użyciu bitÓw, Python, Salt i Kafka
- Unikanie więzienia pojemności i uciekanie z niego
- Ewolucja globalnego routingu ruchu i trybu failover