Importancia de la respuesta ante incidentes
- 3 minutos
Basándose en los principios y prácticas de supervisión que se describen en otro módulo de esta ruta de aprendizaje, ahora aprenderá qué hacer cuando la supervisión muestre un problema. Si recibe una alerta que requiera acción y le notifica que los sistemas no funcionan según lo previsto, es el inicio de una respuesta para resolver el problema.
¿Qué es un incidente?
La respuesta a incidentes se refiere a las acciones que se realizan cuando se produce un incidente, pero ¿qué constituye exactamente un incidente? La respuesta puede ser subjetiva; incluso todos los ingenieros no están de acuerdo en lo que es un incidente. Si formula la pregunta en diferentes sectores y organizaciones, obtendrá muchas respuestas diferentes.
Algunos etiquetarán todas las interrupciones como incidentes, independientemente de si los clientes se ven afectados o no. En el contexto de este módulo, podemos aceptar que un incidente se define como una interrupción del servicio: una aparición o condición que afecta a la capacidad del usuario de usar los servicios en los que se basan. Algunos ejemplos son cuando los sistemas están inactivos o no funcionan correctamente de una manera que afecta a los clientes.
¿Qué es la respuesta ante incidentes?
Prevenir todos los problemas es un objetivo muy agradable, pero imposible. Las cosas van mal, por lo que necesitamos un plan para limitar el impacto en nuestros usuarios finales y devolver las operaciones a la normalidad lo más rápido posible.
La clave es responder con urgencia en lugar de reaccionar. Una reacción tiende a ser más impulsiva y basada en el momento presente, sin tener en cuenta los efectos a largo plazo. Una respuesta está bien pensada, organizada y basada en la información.
El enfoque de respuesta a incidentes determina su eficacia en:
- Comprender lo que sucede (diagnosticar el problema).
- Evaluar (determinar la urgencia) y priorizar el problema.
- Movilización de los recursos adecuados para mitigar el/los problema(s).
- Comunicarse con las partes interesadas sobre el problema.
Después de corregir el problema, puede aprender del incidente a través de un proceso de revisión posterior al incidente. Este es un tema importante que tiene un módulo independiente completo que merece la pena discutir.
Medición del rendimiento de la respuesta a incidentes
Es posible que esté familiarizado con el acrónimo TTR, que se define de forma diversa como "tiempo de recuperación", "tiempo de corrección" o "tiempo de restauración". Todas estas variantes hacen referencia a lo mismo: la cantidad total de tiempo que se tarda en devolver los servicios a un lugar donde pueden volver a satisfacer las expectativas de los clientes.
Esta métrica es una manera de medir el rendimiento de los equipos al responder a incidentes. Cuanto más rápido recupere, corrija o restaure el servicio, menos impacto tendrá la interrupción o el servicio degradado.
Es importante saber qué tan bien su organización controla la respuesta a incidentes. Cada año, la organización DevOps Research and Assessment (DORA) publica un informe de Estado de DevOps . Algunos hallazgos clave del informe de 2019 se centraron en el rendimiento de la respuesta a incidentes.
- El informe clasificó a los equipos de ingeniería que pueden detectar, responder y corregir interrupciones del servicio en menos de una hora como "elite o alto rendimiento".
- Los que pudieron recuperarse de incidentes en menos de 24 horas se clasificaron como "artistas medianos".
- "Bajo rendimiento" son aquellos que tardan entre una semana y un mes en recuperarse de interrupciones del servicio.
La diferencia entre estos niveles es significativa. El estudio encontró que los equipos de alto rendimiento y élite se recuperan de incidentes 2.604 veces más rápidamente que sus compañeros de "bajo rendimiento". Los equipos de élite o rendimiento alto también implementan en producción 208 veces más a menudo.
¿Por qué y cómo los intérpretes de élite responden y se recuperan mucho más rápidamente que el resto? Es al menos parcialmente porque comprenden la importancia de tener un buen plan de respuesta fundamental ya implementado cuando las cosas inevitablemente van mal.
A medida que pase por este módulo, obtendrá información sobre las características y el ciclo de vida de un incidente y cómo usar ese conocimiento para crear su propio plan fundamental.