Der Nachbewertungsprozess nach dem Vorfall
- 7 Minuten
Ein wichtiger Bestandteil einer Überprüfung nach einem Vorfall ist der Aufbau einer freigegebenen, genauen Chronologie, die den nichtlinearen Charakter eines Vorfalls widerspiegelt.
Nichtlinear bedeutet, dass Incidents fast nie einfach nur nach dem Schema „Das ist passiert und dann das, dann haben wir das gemerkt, dann haben wir etwas getan, und damit war das erledigt“ ablaufen. Menschen kommen dazu und gehen wieder, es wird Verschiedenes bemerkt und ausprobiert, davon funktioniert einiges und manches nicht. Und wenn mehrere Personen gleichzeitig arbeiten, können diese Dinge auch gleichzeitig passieren, so dass es etwas komplizierter ist.
Um eine Zeitachse wie diese zu erstellen, selbst eine komplexe, gibt es immer einen wichtigen ersten Schritt: das Sammeln der Daten.
Sammeln der Daten
Bevor Sie eine Überprüfung nach dem Vorfall durchführen können, müssen Sie zuerst Daten sammeln. Insbesondere müssen Sie so viele Unterhaltungen und Kontext (sowohl technisch als auch nicht technisch) sammeln, die das Ereignis umgeben, wie Möglich, damit Sie alle wichtigen Daten verwenden können, die darin enthalten sind. Die Unterhaltung zwischen Teammitgliedern, die während des Ausfalls oder Vorfalls aufgetreten sind, ist eine Ihrer reichsten Informationsquellen.
Sie sollten auch Daten aus Ihrem Überwachungssystem sowie aus anderen Quellen sammeln, aus denen die Personen, die am Vorfall beteiligt sind, Kontext gewonnen haben. Welche Informationen erhielten sie von Ihren Systemen, als der Vorfall ausgeführt wurde?
Und schließlich wäre es hilfreich, wenn Sie, falls möglich, ein klareres Bild davon bekommen, was sich unmittelbar vor und während des Vorfalls verändert hat, da Änderungen häufig beitragende Faktoren sind, wenn ein Vorfall eintritt.
Wir können diesen Prozess als drei separate Teile betrachten:
- Sammeln Sie die Unterhaltung: In anderen Modulen in diesem Lernpfad haben wir erwähnt, dass es wichtig ist, einen bestimmten Ort zu pflegen, an dem Personen während eines Vorfalls kommunizieren können. Im Laufe des Vorfalls teilen sich im Idealfall Menschen, was funktioniert hat und was fehlgeschlagen ist, was sie zögerlich ausprobieren möchten, was sie in der Vergangenheit versucht haben. Diese Unterhaltung zwischen den Menschen, während sie durcharbeiten und das Problem lösen, ist Ihre beste Lernquelle.
- Ermitteln Sie den Kontext: Die Personen in einem Vorfall empfangen Signale von verschiedenen Orten. Ein primärer Ort ist Ihr Überwachungssystem. Wir haben uns mit der Bedeutung eines soliden Überwachungssystems in einem vorherigen Modul in diesem Lernpfad befasst. Im Idealfall sollten wir in der Lage sein, das Überwachungssystem zu betrachten, um eine Point-in-Time-Momentaufnahme für den Zeitraum um oder im Zusammenhang mit dem Vorfall zu erstellen.
- Suchen Sie die Änderungen: Sie können dies über Aktivitäts- und Überwachungsprotokolle tun.
Azure-Tools zum Sammeln der Daten
Azure bietet eine Reihe von Tools, die ihnen bei diesem Prozess helfen können:
Azure DevOps zum Halten von Metadaten zum Vorfall
In einem vorherigen Modul in diesem Lernpfad haben wir die Verwendung von Azure Boards in der Azure DevOps-Suite als einen Ort diskutiert, an dem alle Informationen zu einem Vorfall gesammelt werden, beginnend mit der ersten Antwort. Es hilft uns bei Fragen, wann ein Vorfall zum ersten Mal deklariert wurde, wer anrufte, wer dem Vorfall zugewiesen wurde usw. Sie können auch das Azure DevOps-Wiki als zentrale Möglichkeit verwenden, um einige der Informationen über den Vorfall selbst und die Unterhaltung, die während des Vorfalls aufgetreten ist, abzurufen.
Microsoft Graph-API zum Extrahieren der Unterhaltung
Die Microsoft Graph-API bietet eine programmgesteuerte Möglichkeit zum Suchen, Exportieren und Einbinden der Unterhaltung, die im Teams-Kanal gesammelt wurde, der diesem bestimmten Vorfall gewidmet ist. Die abgerufenen Daten umfassen auch Metadaten, die beim Erstellen einer Chronologie nützlich sein werden, einschließlich der Person, die dem Kanal (und wann) und Zeitstempeln für einzelne Teile der Unterhaltung beigetreten ist.
Eine einfache Möglichkeit für die ersten Schritte mit der Microsoft Graph-API ist die Verwendung des Microsoft Graph-Explorers. Microsoft Graph Explorer ist ein webbasierter API-Browser, mit dem Sie die API-Aufrufe auswählen können, indem Sie vorab ausgefüllte Optionen auswählen. So sieht es aus:
Wir durchlaufen eine Reihe von API-Aufrufen von "Microsoft Teams" und "Microsoft Teams (Beta)", um die Unterhaltung abzurufen. In jedem Schritt wählen wir eine Abfrage aus, führen die Abfrage aus und wählen dann die Informationen aus der Antwort aus, die uns beim nächsten Schritt hilft. Anschließend verwenden wir diese Informationen, um die nächste Anforderung zu erstellen. Beispielsweise fragen wir zuerst eine Liste von Team-IDs ab, um die Teams anzuzeigen, zu denen wir gehören. Wir wählen das aus der Antwort benötigte aus, und fügen diese ID in die nächste Abfrage-URL ein, um eine Liste der Kanäle in diesem Team abzurufen.
Hier sind unsere Schritte:
- Abrufen von „Meine verbundenen Teams“ (um die Team-ID des Teams zu finden, das wir verwenden)
- GET "Kanäle eines Teams, bei dem ich Mitglied bin" (um die Kanal-ID des Kanals zu finden, den wir für diesen Vorfall verwendet haben).
- "Nachrichten in einem Kanal abrufen (um das Gespräch abzurufen)."
Wenn wir später ein Programm erstellen möchten, um jede dieser Schritte auszuführen (und tatsächlich tun wir), gibt es eine Codeausschnittoption im Anforderungsfenster , in der Beispielcode für diese Abfrage in einer Reihe verschiedener Programmiersprachen dargestellt wird.
Gezielte Dashboards für die Kontextanzeige
Dashboards in Azure ermöglichen es uns, die Informationen von Azure Monitor zu sammeln, die uns für das operative Bewusstsein auf einer einzelnen Seite wichtig sind. Die Benutzeroberfläche ermöglicht es uns, den angezeigten Zeitraum auszuwählen, sodass es möglich ist, die "Zeit zurückzuspulen" und die Dashboardinformationen für den Zeitraum anzuzeigen, der einem Zwischenfall zugeordnet ist, wenn wir dies wünschen. Vorausgesetzt, die Informationen sind nicht zu alt, um im Azure Monitor nicht mehr aufbewahrt zu werden. Diese rekonstruierte Benutzeroberfläche kann hilfreich sein, wenn Sie versuchen, zu ermitteln, was die Personen in einem Vorfall während dieses Vorfalls gesehen haben, aber es erfordert, dass die Person, die die Vorfallüberprüfung durchführt, manuell nach dem richtigen Zeitraum sucht.
Ein Feature von Dashboards in Azure, das häufig übersehen wird, ist die Möglichkeit, eine Vorlage eines beliebigen Dashboards, das in einer JSON-Datei angezeigt wird, mithilfe der Schaltfläche " Herunterladen " (Pfeil nach unten) und mit der Schaltfläche "Hochladen" (Nach-oben ) wieder in die Datei zu laden. Dies bedeutet, dass wir entweder manuell nach dem richtigen Zeitpunkt suchen, das Dashboard in diesem Zustand herunterladen und die JSON-Datei für andere freigeben oder einfach das aktuelle Dashboard herunterladen und den JSON-Code in unsere Spezifikation ändern können. Wenn Sie in einer heruntergeladenen JSON-Dashboarddatei nach der Zeichenfolge "time" suchen, finden Sie einen Abschnitt, der wie folgt aussieht:
"metadata": {
"model": {
"timeRange": {
"value": {
"relative": {
"duration": 24,
"timeUnit": 1
}
},
"type": "MsPortalFx.Composition.Configuration.ValueTypes.TimeRange"
},
"filterLocale": {
"value": "en-us"
},
"filters": {
"value": {
"MsPortalFx_TimeRange": {
"model": {
"format": "utc",
"granularity": "auto",
"relative": "24h"
},
"displayCache": {
"name": "UTC Time",
"value": "Past 24 hours"
},
Ändern Sie diesen Abschnitt in Ihre Spezifikation, und laden Sie es erneut. Wenn Sie mit dem verwendeten Format nicht vertraut sind, können Sie das Dashboard manuell ändern, es herunterladen und das erforderliche Format anzeigen.
Überwachungsprotokolle und Log-Analysen zur Untersuchung von Änderungen
Ein Log Analytics-Arbeitsbereich kann Daten aus vielen Quellen aufnehmen, einschließlich des Azure-Aktivitätsprotokolls. Erstellen Sie zunächst einen neuen Log Analytics-Arbeitsbereich. Wechseln Sie dann zum Feature "Aktivitätsprotokoll" im Portal, und wählen Sie "Diagnoseeinstellungen" aus. Dies bietet die Möglichkeit, das Aktivitätsprotokoll für ein Azure-Abonnement an Ihren neuen Arbeitsbereich zu senden.
In kurzer Zeit können Sie alle Möglichkeiten der Kusto Query Language (KQL) nutzen, um detaillierte Informationen zu Änderungen abzurufen, die in diesem Abonnement vorgenommen wurden, seit Sie die Datenquelle verbunden haben.
Die folgende Abfrage zeigt beispielsweise Informationen zu Ressourcen an, die geändert wurden oder gelöscht wurden. Wir können den Zeitraum für die Abfrage im Abfrage-Explorer festlegen, um die Zeit kurz vor dem Vorfall genauer zu verfeinern, wenn wir möchten.
AzureActivity
| where CategoryValue == 'Administrative'
| where OperationNameValue endswith "write" or OperationNameValue endswith "delete"
| project TimeGenerated, Level, ResourceGroup, ResourceId, OperationName, OperationNameValue, ActivityStatus, Caller
| order by TimeGenerated nulls first
Eine kurze Notiz: Wenn Sie das Azure-Aktivitätsprotokoll als Datenquelle festlegen, beginnt die Information ab diesem Zeitpunkt in den Log Analytics-Arbeitsbereich zu fließen. Sie können diesen Arbeitsbereich nicht rückwirkend nach Ereignissen abfragen, die vor dem Herstellen der Verbindung stattgefunden haben.
Diese Tools sollten Ihnen einen guten Einstieg in das Sammeln von Informationen geben können, die für eine Chronologie erforderlich sind, um sie in einer Überprüfung nach dem Vorfall zu verwenden. Bevor Sie direkt in eine Überprüfung nach dem Vorfall eintauchen, möchten wir Sie vor einigen gängigen Fallen warnen. Das ist das Thema unserer nächsten Einheit.