Solución de problemas del servidor de máquinas sin sistema operativo Azure Operator Nexus

En este artículo se describe cómo solucionar problemas de servidor mediante el reinicio, el restablecimiento de imagen inicial y las acciones de reemplazo en máquinas sin sistema operativo (BMM) de Azure Operator Nexus. Es posible que tenga que realizar estas acciones en su servidor por motivos de mantenimiento, lo cual podría causar una breve interrupción en algunos BMM específicos.

El tiempo necesario para completar cada una de estas acciones es similar. El reinicio es el más rápido, mientras que el reemplazo tarda un poco más. Las tres acciones son métodos sencillos y eficaces para solucionar problemas.

Precaución

No realice ninguna acción en los servidores de administración sin consultar primero al personal de soporte técnico de Microsoft. Si lo hace, podría afectar a la integridad del clúster de Operator Nexus.

Prerrequisitos

Familiarícese con las funcionalidades a las que se hace referencia en este artículo revisando las acciones de BMM.
Recopile la siguiente información (necesaria para todas las acciones):
- Nombre del grupo de recursos administrados para el BMM
- Nombre del BMM que requiere una operación de administración del ciclo de vida
- Id. de suscripción
El estado detallado del clúster debe ser Running
La conectividad del clúster al Administrador de clústeres debe ser Connected

Importante

Los comandos disruptivos para un nodo del plano de control de Kubernetes (KCP) se rechazan si otra acción perjudicial ya está en curso en cualquier nodo KCP o si el KCP completo no está disponible.

El reinicio, el restablecimiento de imagen inicial y el reemplazo se consideran acciones perjudiciales.

Esta comprobación se realiza para mantener la integridad de la instancia de Nexus y asegurarse de que varios nodos KCP no bloqueen a la vez debido a acciones disruptivas simultáneas. Si varios nodos se vuelven inactivos, rompe el umbral de cuórum saludable del plano de control de Kubernetes.

Sugerencia

En la versión 2509.1 y posteriores, puede supervisar las acciones BMM recientes o en curso en Azure Portal. Para obtener más información, consulte Monitor del estado en propiedades JSON de la máquina bare metal.

Identificación de la acción correctiva

Al solucionar problemas de un BMM por fallos y determinar la medida correctiva más adecuada, es esencial comprender las opciones disponibles. En este artículo se proporciona un enfoque sistemático para solucionar problemas del servidor de Azure Operator Nexus mediante estos tres métodos:

Reinicio : método menos invasivo, mejor para problemas temporales o máquinas virtuales (VM) no responde
Reimage : solución intermedia, restaura el sistema operativo a un estado correcto conocido sin afectar a los datos.
Reemplazar : acción más significativa, necesaria para errores de componentes de hardware, como RAM, disco duro, etc. La acción reemplazar debe usarse después de reemplazar los componentes BMM.

Solución de problemas del árbol de decisión

Siga esta ruta de escalación al solucionar problemas de BMM:

Problema	Primera acción	Si el problema persiste	Si sigue sin resolverse
Máquinas virtuales o servicios que no responden	Restart (Reiniciar)	Restablecer imagen inicial	Reemplazar
Daños en el software o el sistema operativo	Restablecer imagen inicial	Reemplazar	Ponerse en contacto con soporte técnico
Error de hardware conocido	Reemplazar	N/A	Ponerse en contacto con soporte técnico
Riesgo de seguridad	Restablecer imagen inicial	Reemplazar	Ponerse en contacto con soporte técnico

El enfoque recomendado es comenzar con la solución menos invasiva (reinicio) y escalar a medidas más complejas solo si es necesario. Valide siempre que el problema se resuelva después de cada acción correctiva.

Solución de problemas con una acción de reinicio

Reiniciar un BMM es un proceso de reinicio del servidor a través de una llamada API simple. Esta acción puede ser útil para solucionar problemas cuando las máquinas virtuales de inquilino del host no responden o están bloqueadas de otro modo.

El reinicio suele ser el punto de partida para mitigar un problema.

Reinicio del flujo de trabajo

Evaluar impacto : determine si reiniciar BMM afecta a las cargas de trabajo críticas.
Apagar : si es necesario, apague el BMM (opcional).
Iniciar o reiniciar : inicie un BMM apagado o reinicie un BMM en ejecución.
Comprobar el estado : compruebe si el BMM vuelve a estar en línea y funciona correctamente.

Nota:

La operación de reinicio es el método de recuperación más rápido, pero es posible que no resuelva problemas relacionados con daños en el sistema operativo o errores de hardware.

El siguiente comando de la CLI de Azure power-off el bareMetalMachineName especificado:

az networkcloud baremetalmachine power-off \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure start el bareMetalMachineName especificado:

az networkcloud baremetalmachine start \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure restart el bareMetalMachineName especificado:

az networkcloud baremetalmachine restart \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Para comprobar el estado de BMM después del reinicio:

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Un resultado de Succeeded mostrará que el comando se ha completado.

Solución de problemas con una acción de restablecimiento de imagen inicial

Restablecer la imagen inicial de una BMM es un proceso que se usa para volver a implementar la imagen en el disco del sistema operativo, sin afectar a los datos del inquilino. Esta acción ejecuta los pasos para volver a unir el clúster con los mismos identificadores.

La acción de restablecimiento de imagen inicial puede ser útil para solucionar problemas restaurando el sistema operativo a un estado de funcionamiento correcto conocido. Entre las causas comunes que se pueden resolver a través del restablecimiento de imagen inicial se incluyen la recuperación debido a la duda de la integridad del host, el riesgo de seguridad sospechoso o confirmado, o actividad de escritura de "emergencia".

Una acción de restablecimiento de imagen inicial es el procedimiento recomendado para el riesgo operativo más bajo a fin de garantizar la integridad del BMM.

Flujo de trabajo de restauración de imagen

Comprobación de las cargas de trabajo en ejecución - Antes de crear una nueva imagen, compruebe qué cargas de trabajo se ejecutan en el BMM.
Acordonar y evacuar cargas de trabajo: descargue el BMM de las cargas de trabajo.
Realizar reinstalación - Ejecute la operación de reinstalación.
Uncordon - Hacer que el BMM sea programable de nuevo tras completar la reimagen.

Advertencia

Ejecutar más de un baremetalmachine replace o reimage comando al mismo tiempo, o ejecutar un replace al mismo tiempo que un reimage deja los servidores en un estado inoperativo. Asegúrese de que una operación se complete completamente antes de iniciar otra.

Para identificar si alguna carga de trabajo se está ejecutando actualmente en un BMM, ejecute el siguiente comando:

Para máquinas virtuales:

az networkcloud baremetalmachine show -n <nodeName> \
--resource-group <resourceGroup> \
--subscription <subscriptionID> | jq '.virtualMachinesAssociatedIds'

Para los nodos de clúster de Nexus Kubernetes: (requiere el inicio de sesión en el clúster de Nexus Kubernetes)

kubectl get nodes <resourceName> -ojson |jq '.metadata.labels."topology.kubernetes.io/baremetalmachine"'

El siguiente comando de la CLI de Azure cordon bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure reimage bareMetalMachineName especificado.

az networkcloud baremetalmachine reimage \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

El siguiente comando de la CLI de Azure uncordon bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Para comprobar el estado de BMM después:reimage

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Un resultado de Succeeded mostrará que BMM ha sido aprovisionado y se ha reincorporado al clúster.

Solución de problemas con una acción de reemplazo

Los servidores contienen muchos componentes físicos que pueden conmutar por error con el tiempo. Es importante comprender qué reparaciones físicas requieren el reemplazo de BMM y cuándo se recomienda el reemplazo de BMM. Los datos del inquilino no se modifican durante el reemplazo siempre que se utilice la marca storage-policy="Preserve".

Se invoca un proceso de validación de hardware para garantizar la integridad del host físico antes de implementar la imagen del sistema operativo.

En este artículo se proporciona información general sobre el proceso de validación de hardware Información general sobre la validación de hardware.

En este artículo se proporcionan instrucciones sobre cómo comprobar y solucionar problemas de resultados de validación de hardware Solución de problemas de validación de hardware

Importante

Cuando se ejecuta con opciones predeterminadas, el controlador RAID se restablece durante la sustitución de BMM, borrando todos los datos de los discos virtuales del servidor. Las alertas de disco virtual del Controlador de administración de placa base (BMC) que se activan durante la sustitución de BMM se pueden ignorar a menos que haya otras alertas de disco físico o de controladores RAID. A partir de la versión 2025-07-01-preview de NetworkCloud API, y generalmente disponible con la versión 2025-09-01 GA, utilice replace con storage-policy="Preserve" para conservar los datos del disco virtual.

Reemplazar flujo de trabajo

Acordonar y evacuar: quite las cargas de trabajo del BMM antes de la reparación física.
Realizar reparaciones físicas : reemplace los componentes de hardware según sea necesario.
Ejecutar comando replace: ejecute el comando replace con los parámetros necesarios.
Desacordonar: haga que el BMM sea programable nuevamente después de completar la sustitución.
Comprobar el estado : compruebe que BMM funciona correctamente.

El siguiente comando de la CLI de Azure cordon bareMetalMachineName especificado.

az networkcloud baremetalmachine cordon \
  --evacuate "True" \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Guía de reemplazo de componentes de hardware

Al realizar una reparación de una fuente de alimentación física intercambiable en caliente, no se requiere una acción de reemplazo porque el host BMM seguirá funcionando normalmente después de la reparación.

Al realizar las siguientes reparaciones físicas, se recomienda una acción de reemplazo, aunque no es necesario devolver el BMM al servicio:

Unidad Central de Procesamiento (CPU)
Módulo de memoria en línea dual (DIMM)
Ventilador
Aumento de placa de expansión
Transceptor
Reemplazo de cable ethernet o fibra

Al realizar las siguientes reparaciones físicas, se requiere una acción de reemplazo para devolver el BMM al servicio:

Backplane
Placa del sistema
Disco SSD
Adaptador PERC/RAID
Tarjeta de interfaz de red (NIC) de Mellanox
NIC insertada de Broadcom

Una vez completadas las reparaciones físicas, realice una acción de reemplazo.

El siguiente comando de la CLI de Azure replace bareMetalMachineName especificado.

az networkcloud baremetalmachine replace \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --bmc-credentials password=<IDRAC_PASSWORD> username=<IDRAC_USER> \
  --bmc-mac-address <IDRAC_MAC> \
  --boot-mac-address <PXE_MAC> \
  --machine-name <OS_HOSTNAME> \
  --serial-number <SERIAL_NUM> \
  --subscription <subscriptionID> \
  --storage-policy <STORAGE_POLICY>

El siguiente comando de la CLI de Azure desacordonará el bareMetalMachineName especificado.

az networkcloud baremetalmachine uncordon \
  --name <bareMetalMachineName> \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID>

Para comprobar el estado de BMM después:replace

az networkcloud baremetalmachine show \
  --name <bareMetalMachineName>  \
  --resource-group "<resourceGroup>" \
  --subscription <subscriptionID> \
  --query "provisioningState"

Un resultado de Succeeded mostrará que BMM ha sido aprovisionado y se ha reincorporado al clúster.

Resumen

Reiniciar, restablecer y reemplazar son métodos de solución de problemas eficaces para solucionar los problemas del servidor Azure Operator Nexus. Esta es una guía de referencia rápida:

Acción	Cuándo usar	Impacto	Requisitos
Restart (Reiniciar)	Errores temporales, máquinas virtuales que no responden	Breve tiempo de inactividad	Ninguna, opción más rápida
Restablecer imagen inicial	Daños en el sistema operativo, problemas de seguridad	Tiempo de inactividad más largo, conserva los datos.	Se recomienda la evacuación de cargas de trabajo
Reemplazar	Errores de componentes de hardware	Tiempo de inactividad más largo, los datos de los discos virtuales no se conservan y es posible que la máquina virtual no pueda arrancar.	Reemplazo de componentes de hardware, parámetros específicos necesarios

procedimientos recomendados

Siga siempre el procedimiento de escalación: comience reiniciando, luego recree la imagen, y luego reemplace, a menos que el problema indique claramente lo contrario.
Comprobar las cargas de trabajo antes de la acción: use los comandos proporcionados para identificar las cargas de trabajo en ejecución antes de cualquier acción perjudicial.
Cordón con evacuación: al realizar acciones de reimagen o reemplazo, use cordon siempre con evacuate="True" para mover cargas de trabajo de forma segura.
Nunca ejecute varias operaciones simultáneamente: asegúrese de que se complete una operación antes de iniciar otra para evitar problemas de servidor.
Comprobar resolución: después de realizar cualquier acción, compruebe el estado de BMM y que se resuelva el problema original.

Puede encontrar más detalles sobre las acciones de BMM en el artículo Acciones de BMM.

Si aún tiene alguna pregunta, póngase en contacto con soporte técnico. Para obtener más información sobre los planes de soporte técnico, vea Planes de Soporte técnico de Azure.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-12-15