Azure Kubernetes Service (AKS) は、 NotReady 状態のノードを 5 分以上検出すると、ノードの自動修復を試みます。 ノードの自動修復はベスト エフォート サービスです。 ノードを正常な状態に復元できることを保証するものではありません。 詳細については、 ノードの自動修復プロセスを参照してください。
ノードの自動修復プロセス中に、AKS は異常なノードに対して reboot、 reimage、および redeploy アクションを開始します。 エラーはさまざまな理由で発生する可能性があり、エラー コードは Kubernetes イベントによって検出されます。 Kubernetes イベントを使用して、ノードの状態と自動修復アクションを監視できます。
この記事では、一般的なノード自動修復エラーの潜在的な原因と解決策について説明し、ノードの自動修復プロセスを監視するためのベスト プラクティスについて説明します。
前提条件
次の Kubernetes イベントを確認して、ノードの自動修復エラーの種類を特定します。
| 理由 | イベント メッセージ | 説明 |
|---|---|---|
| NodeRebootError | ノードの自動修復再起動操作が操作エラーのために失敗しました: [エラー コードはこちら] |
reboot アクションでエラーが発生したときに生成されます。 |
| NodeReimageError | 操作エラーが原因でノードの自動修復の再イメージ化アクションが失敗しました: [エラー コードはこちら] |
reimage アクションでエラーが発生したときに生成されます。 |
| NodeRedeployError | ノードの自動修復の再デプロイ操作が操作エラーのために失敗しました: [エラー コードはこちら] |
redeploy アクションでエラーが発生したときに生成されます。 |
Note
ノードは自動修復プロセスの前に既に異常な状態にあるため、ほとんどの場合、ノードの自動修復エラーはクラスターまたはアプリケーションに影響しません。 ノードの自動修復エラーが発生した場合は、「ノードの準備ができていないエラーの Basic トラブルシューティング」の手順に従ってノードを修復することをお勧めします。
Succeeded状態に復元できない場合、ノードの自動修復によって報告された永続的なエラーが表示される場合は、Azure サポートにお問い合わせください。
一般的なエラー コード
| エラー コード | 原因と解決策 |
|---|---|
| VMExtensionProvisioningError | 1 つ以上の仮想マシン (VM) 拡張機能を VM にプロビジョニングできませんでした。 考えられるエラーの種類とトラブルシューティングの手順の詳細については、「 ERR_VHD_FILE_NOT_FOUNDエラー コード (124)をトラブルシューティングする」を参照してください。 ノードで VM 拡張機能のプロビジョニング エラーを正確に確認するには、Azure portal でエラーの詳細 表示。 |
| InvalidParameter | このエラーは、ノードの自動修復プロセスが、存在しなくなったノードにアクセスしようとした場合に発生します。 |
| scaleSetNameAndInstanceIDFromProviderID 失敗しました | この問題は、ノードが正しくプロビジョニングされていない場合に発生します。 |
| ManagedIdentityCredential 認証に失敗しました | この問題は、ノードが正しく初期化されていない場合に発生します。 |
| VMRedeploymentFailed | このエラーは、ノードを再デプロイしようとしたときに発生します。 この場合、ノード プールが障害状態になる可能性があります。 考えられる原因とトラブルシューティングの手順の詳細については、「 失敗状態の Azure Kubernetes Service クラスターまたはノードをトラブルシューティングするを参照してください。 |
| TooManyVMRedeploymentRequests | このエラーは、クラスターが VM 再デプロイ要求の制限を超えた場合に発生します。
Redeploy は、ノードの自動修復アクションの 1 つです。 このエラーは、 redeploy アクションでノードを修復できないことを意味します。 Node Not Ready の問題をトラブルシューティングするには、「 ノード準備ができていないエラーの基本的なトラブルシューティングを参照してください。 |
| OutboundConnectivityNotEnabledOnVMSS | このエラーは、ノードまたは仮想マシン スケール セット全体で送信アクセスが有効になっていない場合に発生します。 この問題を解決するには、アプリケーションに最適な方法を使用して、スケール セットの安全な送信アクセスを有効にします。 詳細については、「 「OutboundConnectivityNotEnabledOnVM」を参照してください。仮想マシンに対して送信接続が構成されていません。" |
ノードの自動修復を監視するためのベスト プラクティス
AKS では、既定で過去 1 時間の Kubernetes イベントが格納されます。 最大 90 日間イベントを格納できるように、 Container Insights を有効にすることをお勧めします。 また、イベントの やアラートの構成 ノードの自動修復エラーをすばやく検出することもできます。
ノードの自動修復はベスト エフォート サービスです。 ノードを
Ready状態に復元できることを保証するものではありません。 Node Not Ready の問題をアクティブに監視してアラートを設定し、これらの問題のトラブルシューティングと解決を自分で行うことをお勧めします。 詳細については、「 ノード準備ができていない問題の基本的なトラブルシューティングを参照してください。
お問い合わせはこちらから
ご質問がある場合は、 Azure コミュニティサポートにお問い合わせください。 Azure フィードバック コミュニティに製品フィードバックを送信することもできます。