Freigeben über


Verwenden des NVIDIA GPU-Operators für Azure Kubernetes Service (AKS)

Der NVIDIA GPU Operator automatisiert die Verwaltung und Bereitstellung aller NVIDIA-Softwarekomponenten, die für die Bereitstellung von GPU erforderlich sind, einschließlich treiberinstallation, des NVIDIA-Geräte-Plug-Ins für Kubernetes, der NVIDIA-Containerlaufzeit und vieles mehr. Da der NVIDIA GPU-Operator diese Komponenten verarbeitet, ist es nicht erforderlich, das NVIDIA-Geräte-Plug-In auf Ihrem AKS-Cluster separat zu installieren. Dies bedeutet auch, dass die automatische GPU-Treiberinstallation übersprungen werden sollte, um den NVIDIA GPU-Operator auf AKS zu verwenden.

Von Bedeutung

Open-Source-Software wird überall in AKS-Dokumenten und -Beispielen erwähnt. Software, die Sie bereitstellen, ist von AKS-Vereinbarungen zum Servicelevel, der eingeschränkten Garantie und dem Azure-Support ausgeschlossen. Wenn Sie Open-Source-Technologie zusammen mit AKS nutzen, nutzen Sie die Supportoptionen, die von den jeweiligen Communitys und Projektbetreuenden angeboten werden, um einen Plan zu entwickeln.

Microsoft übernimmt die Verantwortung für die Erstellung der Open-Source-Pakete, die wir in AKS bereitstellen. Diese Verantwortung beinhaltet die vollständige Übernahme des Build-, Scan-, Signier-, Validierungs- und Hotfix-Prozesses sowie die Kontrolle über die Binärdateien in Container-Images. Weitere Informationen finden Sie unter Sicherheitsrisikomanagement für AKS und AKS-Supportabdeckung.

Bevor Sie anfangen

  • In diesem Artikel wird vorausgesetzt, dass Sie über einen AKS-Cluster verfügen. Wenn Sie keinen Cluster haben, erstellen Sie einen mithilfe der Azure CLI, der Azure PowerShell oder im Azure-Portal.
  • Sie benötigen die Azure CLI-Version 2.72.2 oder höher installiert, um das --gpu-driver Feld festzulegen. Führen Sie az --version aus, um die Version zu ermitteln. Wenn Sie eine Installation oder ein Upgrade durchführen müssen, finden Sie weitere Informationen unter Azure CLI installieren.

Hinweis

GPU-fähige virtuelle Computer verfügen über spezielle Hardware, für die höhere Preise gelten und die möglicherweise nicht in allen Regionen verfügbar ist. Weitere Informationen finden Sie im Preistool und zur regionalen Verfügbarkeit.

Einschränkungen

Holen Sie sich die Anmeldeinformationen für Ihren Cluster

Laden Sie die Anmeldeinformationen für den AKS-Cluster mit dem Befehl az aks get-credentials. Der folgende Beispielbefehl ruft die Anmeldeinformationen für den Cluster myAKSCluster in der myResourceGroup Ressourcengruppe ab:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Hinweis

Der NVIDIA GPU-Operator ist nicht mit mehreren Betriebssystemversionen auf demselben AKS-Cluster kompatibel.

  1. Überspringen Sie die automatische GPU-Treiberinstallation, indem Sie einen NVIDIA GPU-fähigen Knotenpool mit dem Befehl [az aks nodepool add][az-aks-nodepool-add] erstellen und das API-Feld --gpu-driver auf den Wert nonefestlegen. Wenn Sie dieses API-Feld none während der Erstellung des Knotenpools festlegen, wird die Standardinstallation des GPU-Treibers übersprungen, siehe dieses Beispiel. Vorhandene Knoten werden nicht geändert. Sie können den Knotenpool auf null skalieren und dann wieder hochskalieren, um die Änderung wirksam werden zu lassen.

  2. Befolgen Sie die NVIDIA-Dokumentation, um den GPU-Operator zu installieren.

  3. Nachdem Sie nun den GPU-Operator erfolgreich installiert haben, können Sie überprüfen, ob Ihre GPUs planbar sind, und eine GPU-Workload ausführen.

Hinweis

Bei der Verwendung des NVIDIA-GPU-Operators und der Bereitstellung auf SPOT-Instanzen sind möglicherweise zusätzliche Überlegungen anzustellen. Siehe https://github.com/NVIDIA/gpu-operator/issues/577

Nächste Schritte