Die Bedeutung der Incident Response
- 3 Minuten
Basierend auf den Prinzipien und Praktiken der Überwachung, die in einem anderen Modul aus diesem Lernpfad diskutiert werden, erfahren Sie jetzt, was Sie tun können, wenn Ihre Überwachung ein Problem zeigt. Wenn Sie eine Warnung mit Aktionen erhalten, die Sie darüber informiert, dass Ihre Systeme nicht erwartungsgemäß funktionieren, ist dies der Auslöser für eine Antwort, um das Problem zu beheben.
Was ist ein Vorfall?
Bei der Reaktion auf Vorfälle handelt es sich um die Aktionen, die Sie ergreifen, wenn ein Vorfall auftritt, aber was ist genau ein Vorfall? Die Antwort kann subjektiv sein; selbst alle Ingenieure stimmen nicht überein, was ein Vorfall ist. Wenn Sie die Frage in verschiedenen Branchen und Organisationen stellen, erhalten Sie viele verschiedene Antworten.
Einige bezeichnen alle Unterbrechungen als Vorfälle, unabhängig davon, ob Kunden betroffen sind. Im Rahmen dieses Moduls können wir zustimmen, dass ein Vorfall als Dienstunterbrechung definiert ist: ein Vorkommen oder eine Bedingung, die sich auf die Fähigkeit des Benutzers auswirkt, die Dienste zu verwenden, auf die sie vertrauen. Beispiele hierfür sind, wenn Systeme nicht funktionieren oder auf eine Weise fehlfunktionieren, die sich auf Kunden auswirkt.
Was ist Incident Response?
Das Verhindern aller Probleme ist ein lobenswertes, aber unmögliches Ziel. Die Dinge werden schief gehen, daher benötigen wir einen Plan, um die Auswirkungen auf unsere Endbenutzer zu begrenzen und Vorgänge so schnell wie möglich auf normale Vorgänge zurückzusetzen.
Der Schlüssel besteht darin, mit Dringlichkeit zu antworten, anstatt nur zu reagieren. Eine Reaktion tendiert dazu, impulsiver zu sein und im gegenwärtigen Moment zu basieren, ohne langfristige Auswirkungen zu berücksichtigen. Eine Antwort ist gut durchdacht, organisiert und informationsbasiert.
Ihr Vorfallreaktionsansatz bestimmt Ihre Effektivität bei:
- Verstehen, was vor sich geht (Diagnose des Problems).
- Triaging (Ermittlung der Dringlichkeit) und Priorisieren des Problems.
- Einbeziehen der richtigen Ressourcen zur Behebung der Probleme.
- Kommunikation mit Projektbeteiligten über das Problem.
Nachdem Sie das Problem behoben haben, können Sie aus dem Vorfall durch einen Überprüfungsprozess lernen. Das ist ein wichtiges Thema, das über ein ganzes separates Diskussionsmodul verfügt.
Messen der Leistung der Reaktion auf Vorfälle
Möglicherweise sind Sie mit dem Akronym TTR vertraut, der unterschiedlich als "Zeit für die Wiederherstellung", "Zeit für die Wiederherstellung" oder "Zeit für die Wiederherstellung" definiert ist. Alle diese Varianten beziehen sich auf dasselbe: Die Gesamtzeit, die es dauert, bis Sie Dienste an einen Ort zurückbringen, an dem sie an die Erwartungen der Kunden zurückkehren können.
Diese Metrik ist eine Möglichkeit, die Leistung von Teams bei der Reaktion auf Vorfälle zu messen. Je schneller Sie den Dienst wiederherstellen, beheben oder instand setzen, desto weniger Auswirkungen hat der Ausfall oder der beeinträchtigte Dienst.
Es ist wichtig zu wissen, wie gut Ihre Organisation die Reaktion auf Vorfälle behandelt. Jedes Jahr veröffentlicht die DevOps Research and Assessment Organization (DORA) einen State of DevOps-Bericht . Einige wichtige Ergebnisse im Bericht 2019 konzentrierten sich auf die Leistung der Reaktion auf Vorfälle.
- Der Bericht klassifizierte Engineering-Teams, die Dienstunterbrechungen in weniger als einer Stunde als "Elite oder High Performer" erkennen, reagieren und beheben können.
- Diejenigen, die sich in weniger als 24 Stunden von Vorfällen erholen konnten, wurden als "mittlere Performer" eingestuft.
- Leistungsschwache sind diejenigen, die zwischen einer Woche und einem Monat benötigen, um sich von Dienstunterbrechungen zu erholen.
Der Unterschied zwischen diesen Ebenen ist signifikant. Die Studie stellte fest, dass Elite- und Hochleistungsteams sich von Vorfällen 2.604-mal schneller erholen als ihre "leistungsschwachen" Teams. Elite/High Performers führen außerdem 208-mal mehr Bereitstellungen in der Produktion durch.
Warum und wie reagieren Elite-Performer so viel schneller als der Rest? Es liegt zumindest teilweise daran, dass sie verstehen, wie wichtig es ist, bereits einen guten grundlegenden Reaktionsplan zu haben, wenn die Dinge zwangsläufig schief gehen.
Während Sie dieses Modul durchgehen, erfahren Sie mehr über die Merkmale und den Lebenszyklus eines Vorfalls und erfahren, wie Sie dieses Wissen verwenden, um Ihren eigenen grundlegenden Plan zu erstellen.