次の方法で共有


Azure Kubernetes Service (AKS) で NVIDIA GPU オペレーターを使用する

NVIDIA GPU オペレーターは、ドライバーのインストール、 Kubernetes 用の NVIDIA デバイス プラグイン、NVIDIA コンテナー ランタイムなど、GPU のプロビジョニングに必要なすべての NVIDIA ソフトウェア コンポーネントの管理と展開を自動化します。 NVIDIA GPU オペレーターはこれらのコンポーネントを処理するため、AKS クラスターに NVIDIA デバイス プラグインを個別にインストールする必要はありません。 これは、AKS で NVIDIA GPU オペレーターを使用するために、GPU ドライバーの自動インストールをスキップする必要があることを意味します。

重要

オープンソース ソフトウェアは、AKS のドキュメントとサンプル全体で説明されています。 デプロイするソフトウェアは、AKS サービス レベル アグリーメント、限定保証、Azure サポートから除外されます。 AKS と共にオープンソース テクノロジを使用する場合は、それぞれのコミュニティとプロジェクト保守担当者から受けられるサポート オプションを調べ、計画を策定してください。

Microsoft は、AKS 上に展開するオープンソース パッケージを構築する責任を負います。 その責任には、ビルド、スキャン、署名、検証、修正プログラム プロセスの完全な所有権と、コンテナー イメージ内のバイナリの制御権が伴います。 詳細については、AKS の脆弱性管理に関するページと「AKS のサポート範囲」を参照してください。

開始する前に

  • この記事は、AKS クラスターがすでに存在していることを前提としています。 クラスターがない場合は、Azure CLIAzure PowerShell、または Azure portal を使用して作成します。
  • --gpu-driver フィールドを設定するには、Azure CLI バージョン 2.72.2 以降がインストールされている必要があります。 バージョンを確認するには、az --version を実行します。 インストールまたはアップグレードが必要な場合は、Azure CLI のインストールを参照してください。

GPU 対応 VM には、より高い価格が適用され、利用可能なリージョンが限られる特殊なハードウェアが含まれます。 詳細については、価格ツールと利用可能なリージョンを参照してください。

制限事項

クラスターの資格情報を取得する

az aks get-credentials コマンドを使用して AKS クラスターの資格情報を取得します。 次のコマンド例では、myAKSCluster リソース グループ内のクラスター myResourceGroupの資格情報を取得します。

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

NVIDIA GPU オペレーターは、同じ AKS クラスター上の複数の OS バージョンと互換性がありません。

  1. [az aks nodepool add][az-aks-nodepool-add] コマンドを使用して NVIDIA GPU 対応ノード プールを作成し、API フィールド --gpu-drivernone設定することで、GPU ドライバーの自動インストールをスキップします。 ノード プールの作成時にこの API フィールドを none に設定すると、既定の GPU ドライバーのインストールはスキップされます。 この例を参照してください。 既存のノードは変更されません。 ノード プールをゼロにスケールしてバックアップすることで変更を適用できます。

  2. NVIDIA ドキュメントに従い、GPU Operator をインストールします。

  3. これで GPU Operator が正常にインストールされたので、GPU がスケジュール可能であることを確認したり、GPU ワークロードを実行したりできます。

NVIDIA GPU Operator を使って SPOT インスタンスにデプロイするときは、さらに考慮すべきことがある場合があります。 https://github.com/NVIDIA/gpu-operator/issues/577 を参照してください

次のステップ