Compartir a través de


Introducción a la validación de hardware de Azure Operator Nexus

La validación de hardware (HWV) evalúa el estado y la salud de los componentes de hardware de una máquina de metal desnudo (BMM) ejecutando casos de prueba en el controlador de gestión de la placa base (BMC). En este momento, la plataforma Azure Operator Nexus se implementa en servidores Dell. Los servidores Dell utilizan el controlador integrado de acceso remoto de Dell (iDRAC), que es equivalente a un BMC (Controlador de Administración de Placa Base).

Introducción a las herramientas

HWV usa las APIs de Redfish para comunicarse con el BMC de un BMM. Las actualizaciones de firmware de HWV se realizan mediante el método de inserción de firmware de Redfish.

Categorías de validación de hardware

Los resultados de HWV se pueden ver en el área de trabajo de Log Analytics del clúster (LAW). Se agrupan en cinco categorías distintas.

  • Información del sistema: detalles sobre el hardware del servidor, como el modelo, el número de serie, la CPU, la licencia, el firmware y la configuración de memoria.
  • Información de discos: estado e inventario de dispositivos de almacenamiento, incluyendo el tipo, la capacidad y la condición de cada disco.
  • Información de red: información sobre las interfaces de red, las direcciones MAC, el estado del vínculo, la información de vecino y la configuración.
  • Información de salud: estado general de los componentes de hardware, incluidos sensores, fuentes de alimentación y ventiladores. Los registros críticos o de error de BMC, así como los resultados de acciones perturbadoras, también se muestran en la información de estado del sistema.
  • Información de arranque: orden de arranque actual, configuración del dispositivo de arranque y configuración del BIOS relacionada.

Actualizaciones de validación de hardware y acciones disruptivas

Si se detectan discrepancias durante HWV, las herramientas realizan un intento de devolver el BMM a un estado de implementación correcto o aceptable.

Las acciones disruptivas contra BMM se ejecutan según sea necesario durante HWV.

  • Restablecimiento de BMC/iDRAC
  • Purga remota virtual
  • Encendido/apagado del servidor
  • Limpieza de certificados TLS
  • Restablecimiento de RAID

Acciones de actualización y corrección automática:

  • Corrección automática de la configuración de arranque del BIOS
  • Corrección automática del componente de firmware

Si las acciones que interrumpen o de actualización no tienen éxito, se requiere la intervención del usuario.

Actualización de componentes de firmware

HWV comprueba que el firmware de los servidores Dell 15G (Ice Lake) y 16G (Zafiro Rápidos) cumple la versión mínima recomendada (N-2). Si algún firmware está por debajo de este mínimo, HWV lo actualiza automáticamente a una versión estable compatible. Para los servidores 15G, HWV comprueba y actualiza los componentes BIOS, iDRAC, NIC y CPLD. En el caso de los servidores 16G, comprueba y actualiza iDRAC y NIC. Si HWV no puede actualizar automáticamente un componente, se requiere la intervención manual para que el firmware se actualice a la versión mínima recomendada.

Las versiones del componente de firmware y los intentos de actualización correctos o erróneos se registran en los resultados de la información del sistema.

Puede encontrar las especificaciones actualizadas de firmware de Azure Operator Nexus, así como las versiones N-1 y N-2 aquí: Requisitos previos de la plataforma Operator Nexus

Actualización de la configuración de arranque del BIOS

HWV comprueba que la configuración de arranque del BIOS cumple los requisitos para el arranque correcto. Si alguna configuración es incorrecta, HWV las actualiza automáticamente para que coincidan con las especificaciones necesarias.