¿Por qué aprender de incidentes?
- 5 minutos
Cuando se produce un incidente, su primera reacción probablemente no es, "Hurray, una oportunidad de aprendizaje!" Su prioridad inmediata es averiguar lo que salió mal y corregirlo lo antes posible, para reducir el impacto en los clientes y los usuarios finales, como debería ser. Este es el proceso de respuesta a incidentes que analizamos en otro módulo de esta ruta de aprendizaje.
Sin embargo, una vez resuelto el incidente, es importante realizar un seguimiento y beneficiarse de la experiencia. Si no tomamos el tiempo para aprender del incidente, entonces sigue siendo sólo una pérdida de tiempo, dinero, reputación, etc. pero si ese incidente puede ser una fuente de información (de la manera en que ningún otro origen puede) realmente podemos derivar alguna ventaja de él.
La revisión posterior al incidente forma parte de la fase de análisis del ciclo de vida de la respuesta a incidentes. No todas las revisiones posteriores al incidente son iguales. Hay diferentes maneras de abordar el proceso y demasiado centrarse en ciertos aspectos del problema o enmarcar preguntas de forma incorrecta puede reducir el valor de la revisión.
En esta unidad, empezará a pensar no solo en por qué, sino también en cómo puede aprender mejor de los incidentes. Ampliaremos el "cómo" en las unidades posteriores.
Se produce un error en los sistemas complejos
Debe "aprender a aprender" del error no en caso de que sus sistemas fallen, sino porque es seguro que sus sistemas fallarán.
En el mundo moderno, la mayoría de los sistemas con los que trabajamos hoy en día , especialmente en un entorno de nube, son complejos. Se componen de muchas partes de interconexión que tienen que trabajar juntas y el comportamiento general del sistema proviene de la interacción de esas partes tanto como de las partes individuales.
La confiabilidad es el subproceso que se ejecuta a lo largo de esta ruta de aprendizaje, pero los sistemas complejos nunca son cien por ciento confiables. Estos sistemas se comportan de maneras interesantes y contraintuitivas. Se componen de muchas partes y, a menudo, el comportamiento del sistema procede de las interacciones entre esas partes tanto como de las propias partes.
Para una explicación más detallada de este tema, un buen recurso es el documento titulado How Complex Systems Fail by Dr. Richard I. Cook. Es un anestesiólogo e investigador que ha pasado décadas trabajando en seguridad en sistemas complejos, específicamente la seguridad de los pacientes en el sistema sanitario. En este documento, explica lo que es común a los sistemas complejos en todos los campos, desde la atención sanitaria hasta las operaciones de software.
Algunos de sus puntos clave son especialmente relevantes para el análisis de incidentes y el proceso de revisión posterior al incidente:
- Los sistemas complejos contienen mezclas cambiantes de errores latentes dentro de ellos. Es imposible que los sistemas se ejecuten sin que haya varios defectos presentes. Los errores cambian constantemente debido a la tecnología, la organización del trabajo y los esfuerzos para erradicar los errores. Su sistema nunca funciona perfectamente.
- Los sistemas complejos se ejecutan en modo degradado. Los sistemas complejos siempre se ejecutan como sistemas "rotos". Siguen funcionando en ese estado porque contienen muchas redundancias, y las personas pueden mantenerlos funcionando a pesar de la presencia de muchos defectos. Las operaciones del sistema son dinámicas, con componentes que producen errores continuamente y se reemplazan.
- La catástrofe siempre está a la vuelta de la esquina. La complejidad de estos sistemas significa que los errores principales del sistema son inevitables a largo plazo. Los sistemas complejos siempre poseen la posibilidad de errores catastróficos y pueden ocurrir en cualquier momento. Es imposible eliminar este potencial porque forma parte de la naturaleza inherente del sistema.
Prevención y respuesta
En sus esfuerzos para lograr el nivel de confiabilidad deseado para los sistemas y servicios, hace todo lo posible para evitar que se produzcan incidentes. Sin embargo, debido a la complejidad de esos sistemas, como se explicó anteriormente, la prevención no siempre es posible.
Debido a este entendimiento, tenemos que adoptar un enfoque doble hacia el error: prevención y, cuando eso no es posible, preparación para responder de forma rápida y eficaz.
La prevención y la respuesta están intervinculadas. Es posible que haya experimentado esto cuando su organización implementó una sofisticada parte de la automatización que funcionó la mayor parte del tiempo. Fue genial que funcionó la mayor parte del tiempo, pero cuando falló, probablemente falló espectacularmente, y hizo más difícil que los operadores comprendan lo que había ido mal.
Los sistemas en los que trabaja están formados por más que la tecnología. De hecho, no trabajas "en" ni "con" un sistema; trabaja en el sistema. Eres parte del sistema. Los sistemas complejos incluyen componentes técnicos (hardware, software) y componentes humanos (personas y sus personalidades, formación y conocimientos). Nuestros sistemas son sistemas que incluyen humanos, y cómo responden los seres humanos cuando las cosas van mal es tan importante como evitar que las cosas vayan mal en primer lugar.
Lenguaje
El lenguaje es importante. Aprenderá en este módulo que vamos a ser muy específicos sobre los términos que usamos y los que no usamos intencionadamente.
Las palabras que usamos afectan a cómo pensamos en lo que sucedió en un incidente y podemos cambiar drásticamente qué y cuánto aprendemos. Este hallazgo procede de la investigación en sectores críticos para la seguridad, como la aviación, la medicina, la búsqueda y el rescate, la lucha contra incendios, etc.
Colectivamente, este campo de investigación se ha conocido como Ingeniería de resistencia (RE).
Tenemos mucho que aprender sobre la ingeniería de resistencia en el sector tecnológico. Más adelante en este módulo, compartiremos algunas cosas realmente útiles que hemos aprendido de la literatura de RE, incluyendo cuatro de las trampas más comunes en las que las personas caen al intentar aprender de fracaso; pero en primer lugar, es necesario definir algunos términos.