Remediación
- 7 minutos
Dividir el ciclo de vida de respuesta a incidentes en cinco fases como ha visto en este módulo le ayuda a comprender el proceso, pero las fases no siempre son tan distintas como aparecen en el diagrama. En concreto, la línea entre las fases de respuesta y corrección suele comenzar a desenfocarse. Esto es especialmente cierto cuando las acciones destinadas a mitigar o mejorar la situación tienen el efecto opuesto. En este caso, la respuesta y la corrección tienden a superponerse o retroceder entre los dos.
En esta unidad, obtendrá más información sobre la corrección y los pasos que componen esta fase, así como algunas sugerencias y herramientas útiles. Una cosa importante que debe tener en cuenta: no debe tomar las medidas que se describen aquí como una lista de comprobación prescriptiva.
Si realmente tiene una lista de comprobación para la corrección ya disponible, a menudo es un indicador de que es el momento de incorporar la automatización a la imagen. Cuando pueda describir exactamente lo que hay que hacer y en qué orden corregir un problema, es el momento perfecto para enseñar estos pasos a una máquina para que el sistema pueda hacerlo por usted.
Por dónde empezar
Ha aprendido sobre la importancia de reducir el tiempo necesario para responder a un incidente. Ahora echemos un vistazo a algunas cosas que pueden ayudar a acelerar el proceso de corrección o corregir el problema.
Es posible que los diferentes miembros del equipo tengan modelos mentales diferentes de cómo funcionan las cosas e ideas diferentes en cuanto a lo que debe ser el primer paso. Uno podría examinar primero los registros, mientras que otro podría ejecutar primero las consultas y examinar las métricas. No hay una única ruta correcta para el éxito.
Sin embargo, ayuda a proporcionar a las personas contexto e instrucciones sobre dónde deben ir y lo que deben examinar.
Cómo y a quién escalar
Una pregunta importante para responder en la formulación del punto de partida de la corrección es: cuando se bloquea, ¿quién puede llamar para escalar el problema? Debe intentar descargar más responsabilidades del equipo en general, no solo operaciones ni ingeniería de confiabilidad de sitios. Debe ser responsabilidad de todos los miembros del equipo tener los sistemas en funcionamiento para cumplir sus objetivos de confiabilidad.
¿Qué recursos son útiles para los primeros respondedores?
La siguiente consideración es determinar las cosas que los primeros respondedores pueden usar para empezar a trabajar en el proceso. Esto podría incluir métricas, registros, consultas, etc. pertinentes. Se deben proporcionar en una guía de solución de problemas o libro de Azure, si es posible. Hablaremos de ellos en un momento.
También es útil proporcionar vínculos sencillos a los recursos (a menudo en una guía de solución de problemas). Si su objetivo es responder y corregir el problema lo más rápido posible, ayudar a las personas a encontrar las respuestas a preguntas sin tener que buscar el documento o la dirección URL correctos acelerarán el proceso.
Actualización de las partes interesadas
Puede centrarse tanto en solucionar el problema que puede olvidar que hay muchas personas que no están implicadas directamente en la respuesta al incidente, pero que quieren y necesitan saber qué está pasando.
Es importante comunicarse con otros equipos internos y mantenerlos informados de lo que sucede cuando se produce un incidente. Si no los proporciona con actualizaciones coherentes, es probable que se produzcan solicitudes de una actualización de estado. Tienen todo derecho a esta información, pero necesita una mejor manera de hacerles conscientes del problema y de lo que se hace sobre ella.
Debe estar claro acerca de la confirmación a los equipos internos. Ten claro en presentar lo que sabes y lo que se hace y establecer expectativas en términos de cuándo te escucharán.
La fórmula de las comunicaciones a las partes interesadas es sencilla:
- Esto es lo que sabemos.
- Esto es lo que estamos haciendo.
- Volveremos a ti en X cantidad de tiempo.
Esto le ayudará a evitar que las partes interesadas lleguen a usted e interrumpan cuando esté en medio de intentar solucionar los problemas.
Una manera de distribuir esta información es mediante el uso de una página web de estado fácil de editar, como la que mencionamos en la última unidad. En muchos casos, es posible que desee tener una página de estado independiente y más detallada para las partes interesadas internas y una externa para sus clientes. La fórmula anterior funciona para ambos casos.
Uso de libros y guías de solución de problemas de Azure Monitor
Azure tiene dos características estrechamente relacionadas que pueden resultar tremendamente útiles para un equipo en la fase de corrección: Libros de Azure Monitor y Guías de solución de problemas de Application Insights. Para este módulo, son intercambiables, incluida la misma interfaz de usuario. Puede encontrar libros de Azure Monitor en Azure Portal en Azure Monitor. Encontrará guías de solución de problemas de Azure Insights en Azure Portal cuando se haya seleccionado una instancia de Applications Insight.
Puede considerar libros y guías de solución de problemas como "documentos dinámicos" que puede crear mediante una interfaz de creación de páginas. Al crear uno nuevo, puede agregarlo a la página:
- Texto arbitrario, como una lista con viñetas de elementos para hacer u otra información útil para alguien que consulte la página
- Vínculos a otros sistemas, por ejemplo, vínculos a otros paneles o documentación
- Consultas del lenguaje de consulta kusto (KQL)
Es ese último elemento que hace que el documento se "viva". En un módulo anterior de esta ruta de aprendizaje, hemos explorado el lenguaje de consulta KQL integrado en Log Analytics y otras partes de Azure Monitor. Con este lenguaje, podríamos escribir nuestras propias consultas para devolver y mostrar información de diagnóstico de nuestra aplicación e infraestructura de Azure. Cuando se inserta una consulta KQL en un libro o una guía de solución de problemas, los resultados actuales de esa consulta se muestran en directo a los lectores del documento. Esto significa que la guía de solución de problemas puede decir no solo "Asegúrese de comprobar la tasa de errores en el servidor web", sino que también puede mostrar un gráfico actual para esa tasa de errores justo allí junto a las instrucciones. Puede tener un vínculo como "here is the web server restart documentation" (aquí está la documentación de reinicio del servidor web) que toma el primer respondedor directamente a la documentación que necesitan.
Azure también proporciona algunas plantillas existentes para ayudarle a empezar a crear sus propios documentos. Esta es una captura de pantalla de algunas de las plantillas predefinidas que puede ofrecer:
Hay una característica de editor avanzado para libros y guías de solución de problemas que le permiten acceder a e insertar un JSON o una representación de plantilla de Azure Resource Manager de ese documento. Esto significa que es posible realizar un seguimiento y distribuir estos documentos mediante el sistema de control de código fuente de su elección. También permite automatizar el aprovisionamiento de libros o guías de solución de problemas, lo que resulta útil para cuando se aprovisiona otra infraestructura. Crear un conjunto de documentos de solución de problemas personalizados para ir con un nuevo servicio en el momento en que se aprovisiona el servicio se vuelve fácil de usar este procedimiento recomendado.
Otras sugerencias y herramientas útiles
A lo largo de este módulo, ha aprendido sobre las distintas herramientas y accesos directos que puede usar para aumentar la eficacia y reducir el tiempo de respuesta a los incidentes. A medida que encapsulamos esta última unidad, realizaremos una breve descripción de algunas herramientas y técnicas que son útiles para diagnosticar problemas dentro de los sistemas.
- Puede usar el vínculo Panel de aplicaciones de Application Insights para generar automáticamente un panel que tenga la mayoría de los elementos clave que necesitará como punto de partida. Tenga en cuenta que no incluye Azure Service Health. Debe anclar esto al panel para que pueda comprobar si el problema es con los sistemas o con el propio servicio en la nube.
- Puede usar el mapa de aplicaciones en Application Insights para profundizar exactamente en lo que sucede para causar los problemas. Puede seguir las rutas de navegación para buscar la causa del error (por ejemplo, una dirección URL con formato incorrecto).
- Puede usar Log Analytics para consultar cualquier parte del sistema.
Todas las herramientas anteriores son valiosas para corregir problemas.