Características y ciclo de vida de un incidente
- 4 minutos
Como ha aprendido en la última unidad, un incidente es una interrupción del servicio que afecta a los clientes y usuarios finales. Los incidentes se presentan en muchas formas, desde ralentizaciones de rendimiento que frustran a los usuarios ("la lentitud es la nueva caída") hasta bloqueos del sistema que dejan el servicio o el sitio completamente inaccesible durante un período de tiempo.
Características de un incidente
Los incidentes suelen ser inesperados y parecen producirse en el peor de los momentos posibles (como las 2:00 a.m., o cuando esté profundamente sumido en un proyecto importante). Este es el motivo por el que los incidentes se suelen temer y evitar, incluso hasta el punto en que a veces las personas minimizan la importancia de un incidente. La presión interna a veces es tan grande en una organización, hay una tentación de etiquetar erróneamente o no informar de una interrupción por miedo a la reprimenda.
Al menos, los incidentes crean un trabajo no planeado y, dado que dedica la mayor parte de su tiempo a realizar el trabajo planeado con una buena idea de lo que se supone que está haciendo, probablemente piense en incidentes como cosas malas. Sin embargo, hay otra manera de verlo: los incidentes son realmente inversiones* al proporcionar el valor que está intentando entregar a los usuarios finales. Independientemente de la causa del incidente o la extensión del impacto, todos los incidentes tienen una cosa en común: pueden proporcionar experiencias de aprendizaje valiosas.
Debe considerar los incidentes como el pulso de sus sistemas. Le dicen más sobre el sistema de lo que entendió anteriormente, y ese conocimiento es una buena cosa. Cuando tenga una base sólida de supervisión y sepa más sobre lo que sucede en su sistema, inevitablemente generará más alertas e incidentes y oportunidades para responder. Al menos, los incidentes le indican lo que está ocurriendo y, por lo tanto, aumentan su conocimiento operativo. En un módulo anterior sobre la supervisión, se sugirió que esto era un precursor importante del trabajo de confiabilidad.
Ciclo de vida de un incidente
Si desea elevar el estado del equipo de respuesta a incidentes a "elite/alto rendimiento", debe mirar más allá de la idea de una interrupción o incidente del servicio como una escala de tiempo lineal simple y abordarlo desde una perspectiva cíclica.
Puede separar el ciclo de vida de un incidente en distintas fases que siguen lógicamente una después de la otra en un ciclo que vuelve al principio. Cada vez que pases por este ciclo (y lo harás numerosas veces), si lo manejas correctamente, es posible volver al principio con una mayor comprensión de tus sistemas. Con algún trabajo intencional, también puede estar mejor preparado para responder rápidamente y eficazmente la próxima vez que se produzca un incidente.
Fases de un incidente
Las fases individuales del proceso de respuesta a incidentes tienen un aspecto ligeramente diferente en función del modelo que use. Para los fines de este módulo, hay cinco fases en las que se responde a un incidente:
- Detección: esta fase es donde entra en juego el conocimiento de supervisión de un módulo anterior de esta ruta de aprendizaje. Las herramientas de supervisión recopilan la información de los registros, analizan esa información según los objetivos centrados en el cliente que ha configurado y le envían alertas accionables para informarle de que es necesaria la intervención humana.
- Respuesta: esta fase es lo que sucede después de que usted y el equipo reciban esa alerta. Profundizaremos en esta fase en detalle en este módulo, por lo que habrá mucho más que decir sobre esta idea en un momento.
- Corrección: esta fase es donde se restauran los sistemas a la funcionalidad normal. La forma de hacerlo depende de la causa de la interrupción del servicio. Reestablecer el servicio y hacerlo disponible para tus clientes es tu máxima prioridad. Sin embargo, el trabajo no se detiene una vez hecho.
- Análisis: para obtener un valor duradero de los incidentes, debe aprender de ellos. Esta fase es el proceso de recopilar la información sobre lo que ha ocurrido y cuándo durante el incidente y ver lo que puede aprender de él haciendo las preguntas adecuadas. Hay un módulo completo sobre el aprendizaje de errores que aborda esta fase.
- Preparación: debe incorporar las lecciones aprendidas en la fase de análisis en la práctica de operaciones. Si hay elementos de acción que podrían ayudar a evitar una interrupción similar en el futuro, también formarían parte de esta fase.
Antes de crear un plan de respuesta a incidentes, debe comprender las características y el valor de los incidentes y estar familiarizado con las fases del ciclo de vida del incidente. El siguiente paso es asegurarse de que la estrategia de respuesta se basa en una base sólida.