Solucionar erros comuns de reparo automático de nó

Quando o AKS (Serviço de Kubernetes do Azure) detecta um nó com um NotReady status por mais de cinco minutos, ele tenta reparar automaticamente o nó. O reparo automático do nó é um serviço de melhor esforço. Isso não garante que o nó possa ser restaurado para um estado íntegro. Para obter mais informações, consulte processo de reparo automático do nó.

Durante o processo de reparo automático do nó, o AKS inicia reboot, reimagee ações redeploy no nó não íntegro. Os erros podem ocorrer devido a vários motivos e os códigos de erro são descobertos por meio de eventos do Kubernetes. Você pode usar eventos do Kubernetes para monitorar o status do nó e as ações de reparo automático.

Este artigo fornece possíveis causas e soluções para erros comuns de reparo automático de nó e descreve as práticas recomendadas para monitorar o processo de reparo automático de nó.

Pré-requisitos

Verifique os seguintes eventos do Kubernetes para identificar o tipo de erro de reparo automático do nó:

Motivo	Mensagem de evento	Descrição
Erro de reinicialização do nó	A ação de reinicialização do reparo automático do nó falhou devido a uma falha de operação: [código de erro aqui]	Emitido quando há um erro com a `reboot` ação.
Erro de Nó de Imagem	A ação de recriação de imagem de reparo automático do nó falhou devido a uma falha de operação: [código de erro aqui]	Emitido quando há um erro com a `reimage` ação.
NodeRedeployError	A ação de reimplantação de reparo automático do nó falhou devido a uma falha de operação: [código de erro aqui]	Emitido quando há um erro com a `redeploy` ação.

Observação

Como o nó já está em um estado não íntegro antes do processo de reparo automático, na maioria dos casos, os erros de reparo automático do nó não afetam o cluster ou os aplicativos. Quando você encontrar erros de reparo automático do nó, recomendamos que você tente reparar o nó seguindo as instruções em Solução básica de problemas de falhas de nó não pronto. Se você não conseguir restaurá-lo para um Succeeded status e vir erros persistentes relatados pelo reparo automático do nó, entre em contato com o suporte do Azure para obter assistência.

Códigos de erro comuns

Código do erro	Causa e solução
VMExtensionProvisioningError	Uma ou mais extensões de VM (máquina virtual) não foram provisionadas na VM. Para obter mais informações sobre possíveis tipos de erro e etapas de solução de problemas, consulte Solucionar problemas do código de erro ERR_VHD_FILE_NOT_FOUND (124). Para determinar o erro exato de provisionamento de extensão de VM em seu nó, exiba os detalhes do erro no portal do Azure.
InvalidParameter	Esse erro ocorrerá se o processo de reparo automático do nó tentar acessar um nó que não existe mais.
scaleSetNameAndInstanceIDFromProviderID falhou	Esse problema ocorre quando o nó não é provisionado corretamente.
Falha na autenticação ManagedIdentityCredential	Esse problema ocorre quando o nó não é inicializado corretamente.
VMRedimploymentFailed	Esse erro ocorre quando você tenta reimplantar o nó. Nesse caso, o pool de nós pode entrar em um estado de falha. Para obter mais informações sobre possíveis causas e etapas de solução de problemas, consulte Solucionar problemas de clusters ou nós do Serviço de Kubernetes do Azure em um estado de falha.
TooManyVMRedeploymentRequests	Esse erro ocorre quando o cluster excede o limite de solicitações de reimplantação de VM. `Redeploy` é uma das ações de reparo automático do nó. Esse erro significa que a `redeploy` ação não pode reparar seu nó. Para solucionar o problema de nó não pronto, consulte Solução de problemas básicos de falhas de nó não pronto.
OutboundConnectivityNotEnabledOnVMSS	Esse erro ocorre quando o nó ou o Conjunto de Dimensionamento de Máquinas Virtuais geral não tem o acesso de saída habilitado. Para resolver esse problema, habilite o acesso de saída seguro para o conjunto de dimensionamento usando um método mais adequado para seu aplicativo. Para obter mais informações, consulte "OutboundConnectivityNotEnabledOnVM. Nenhuma conectividade de saída configurada para máquina virtual."

Práticas recomendadas para monitorar o reparo automático do nó

O AKS armazena eventos do Kubernetes da última hora por padrão. Recomendamos habilitar o Container Insights para que você possa armazenar eventos por até 90 dias. Você também pode consultar eventos e configurar alertas para detectar rapidamente erros de reparo automático de nós.
O reparo automático do nó é um serviço de melhor esforço. Isso não garante que seu nó possa ser restaurado para um Ready status. Recomendamos que você monitore ativamente e defina alertas para problemas de nó não pronto e solucione e resolva esses problemas por conta própria. Para obter mais informações, consulte solução de problemas básicos de problemas de nó não pronto.

Feedback

Esta página foi útil?

Last updated on 2026-01-15