Fundamentos de la respuesta ante incidentes
- 6 minutos
Las organizaciones actuales se benefician de la accesibilidad, la eficiencia y la comodidad de la nube, pero se enfrentan a muchos desafíos a medida que se someten a una transformación digital que implica mover partes de su negocio a servicios en la nube.
Algunos de los desafíos comunes que podría enfrentar en su organización son:
- Aumento del número de interrupciones del servicio
- Ningún método eficaz de seguimiento y respuesta a incidentes (todo es ad hoc y reaccionario)
- Tiempo inaceptable para la resolución
- El tiempo de resolución no mejora o empeora
- La información y el estado son difíciles de encontrar
- Periodicidad de los mismos problemas y errores
Para cumplir estos desafíos, necesita un plan de respuesta a incidentes bien definido basado en una base sólida.
Fundamentos y pilares
El propósito de una cimentación es soportar y mantener unida la estructura que está por encima. En un módulo de introducción independiente a esta ruta de aprendizaje, analizamos la idea de que el trabajo de confiabilidad se basa en el nivel fundamental de supervisión y esa respuesta a incidentes se encuentra justo encima de esa en la jerarquía.
La respuesta a incidentes también tiene una base propia. Hay tres pilares que admiten un buen plan de respuesta a incidentes:
- Listas
- Funciones
- Rotaciones
En esta unidad, descubrirá qué es cada uno de estos pilares y qué partes desempeñan en el diseño de una estrategia de respuesta a incidentes que le mueve más a lo largo del camino hacia los objetivos de confiabilidad.
Listas
Es esencial tener un buen plan, pero un plan es inútil sin que las personas lo ejecuten. Por lo tanto, el mejor lugar para empezar es determinar quién se espera que responda a los problemas y cómo informarles cuándo se requiere su respuesta.
La mejor manera de abordar este desafío es diseñar una lista. Una lista de turnos es aquella que recoge a las personas asignadas al equipo de guardia. Este equipo debe estar formado por varios ingenieros. Estos miembros del equipo deben tener conocimientos y aptitudes para abordar el tipo de problemas que pueden producirse en su entorno, así como el entrenamiento en la respuesta a incidentes.
Sin embargo, una lista de nombres no es suficiente. Debe crear un marco en torno a quién está a la llamada en cualquier momento dado y lo que debe hacer cada persona. Ahí es donde entran los roles.
Funciones
Los roles llevan orden a lo que sería una respuesta caótica o ad hoc. Para ello, define las funciones específicas que asume cada persona en una situación concreta y el lugar de cada uno en la "cadena de comandos". Los roles pueden variar según la organización o incluso por tipo de incidente, pero los roles siguientes suelen formar parte de un equipo de respuesta a incidentes organizado:
- Respondedor principal: esta es la "persona de contacto" que generalmente es la primera persona en llegar al lugar; es decir, el primer ingeniero de guardia al que se llama cuando ocurre un incidente.
- Respondedor secundario: es alguien que actúa como copia de seguridad y puede avanzar si el respondedor principal no está disponible o si se necesita un segundo par de ojos.
- Expertos en la materia (PYME): son personas que tienen conocimientos detallados sobre una faceta determinada de sus operaciones. Están allí si los respondedores principales y secundarios necesitan escalar el problema a alguien con más experiencia. No están a la llamada todo el tiempo, pero están disponibles cuando se necesitan sus aptitudes especializadas. Debe mantener una lista de pymes en diversos temas (por ejemplo, base de datos, front-end, infraestructura de red, aplicaciones web, ciberseguridad, etc.).
- Comandante de incidentes: este es un papel importante en un incidente o interrupción a gran escala que afecta a muchos componentes diferentes o requiere coordinación en muchos equipos y sistemas diferentes. Un comandante de incidentes será la persona que coordina gran parte de la conversación y el esfuerzo con respecto a las actividades de respuesta y corrección. El comandante de incidentes supervisa la "imagen general"; monitorean lo que está ocurriendo y quién está haciendo qué. Un comandante de incidentes es excelente para garantizar que los ingenieros permanezcan centrados y trabajen en sus propios esfuerzos de remediación sin interferir o deshacer el trabajo de los demás.
- Scribe: el rol del escriba es documentar la conversación alrededor del incidente con el máximo detalle posible. Los equipos suelen usar puentes telefónicos, llamadas de conferencia o chat de vídeo para reunir a todos los usuarios e intentar comprender lo que sucede, lo que sin duda puede ayudar a crear espacio para la conversación. Sin embargo, es difícil analizar y comprender en detalle lo que los ingenieros decían y hacían hasta que se transcriba. Como resultado, un escriba es la persona que puede ayudarnos a documentar tanto como sea posible para revisarlo más adelante. El escriba captura todos los datos posibles; no solo lo que hacen los miembros del equipo, sino también lo que están diciendo e incluso lo que sienten o experimentan.
- Coordinador de comunicación: piense en esta persona como "administrador de relaciones públicas" para el incidente. El coordinador de comunicación trabaja junto con el comandante de incidentes para compartir información sobre el incidente con aquellos que no participan en el trabajo activo para abordar y recuperarse del incidente. Esto podría incluir clientes, equipos de ventas y marketing, asistencia al cliente y cualquier otra parte interesada dentro o fuera de la organización que deba tener en cuenta lo que está teniendo lugar y el estado de cómo progresa la respuesta y la corrección.
Rotaciones
Ahora tiene la lista de personal del equipo de respuesta y ha asignado los roles adecuados. El siguiente y último paso es crear un turno rotativo, que es un horario que asigna los turnos para los que cada persona está de guardia.
Existen muchas maneras diferentes de dividir los turnos. La programación de turnos puede ser un proceso estratégico complejo. Los turnos no deben asignarse aleatoriamente; debe pensar en la programación para que sea tan eficaz y tan agradable para los miembros del equipo como sea posible.
Algunos métodos para programar turnos incluyen:
- 24 x 7: se trata de una rotación en la que los miembros del equipo están en llamada durante varios días en una fila. Esta es una manera sencilla de asignar cobertura de turnos, pero debe tener cuidado de limitar la duración. Las rotaciones de turnos de más de tres a cuatro días pueden ser perjudiciales para la salud general del personal de ingeniería y, por tanto, reduce la confiabilidad de todo el sistema.
- Turnos siguiendo el sol: Se trata de un modelo de turno en el que los ingenieros programan sus turnos de guardia solo durante sus horas de trabajo normales y, al final de su jornada laboral, traspasan su responsabilidad a un colega en otra zona horaria.
Estos son solo algunos ejemplos de formas en que se pueden asignar turnos. El punto importante es dividir los turnos de forma que funcione mejor para las personas del equipo de respuesta. Hay muchas maneras de personalizar turnos, especialmente para fines de semana, cuando los ingenieros necesitan más flexibilidad. Los ingenieros deben poder entregar fácilmente el rol a alguien cuando surjan conflictos no relacionados con el trabajo.