Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Sie GPU-Workloads in Azure Kubernetes Service (AKS) ausführen, müssen Sie mehrere Softwarekomponenten installieren und verwalten, einschließlich des GPU-Treibers, des Kubernetes-Geräte-Plug-Ins und des GPU-Metrikexporteurs für Telemetrie. Diese Komponenten sind für die Aktivierung der GPU-Planung, des GPU-Zugriffs auf Containerebene, der Beobachtbarkeit der Ressourcennutzung und der ordnungsgemäßen Funktion von AKS GPU-fähigen Knoten unerlässlich. Bisher mussten Clusteroperatoren diese Komponenten entweder manuell installieren oder Open-Source-Alternativen wie den NVIDIA GPU Operator verwenden, was Komplexität und Betriebsaufwand verursachen kann.
AKS unterstützt jetzt vollständig verwaltete GPU-Knoten (Vorschau) und installiert standardmäßig den NVIDIA GPU-Treiber, das Geräte-Plug-In und den Data Center GPU Manager (DCGM)-Metrikexporteur . Dieses Feature ermöglicht die Erstellung eines GPU-Knotenpools in nur einem Schritt und macht die Verfügbarkeit von GPU-Ressourcen in AKS genauso einfach wie bei allgemeinen CPU-Knoten.
In diesem Artikel erfahren Sie, wie Sie einen vollständig verwalteten GPU-Knotenpool (Vorschau) in Ihrem AKS-Cluster bereitstellen, einschließlich der Standardinstallation des NVIDIA GPU-Treibers, des Geräte-Plug-Ins und des Metrikexporteurs.
Von Bedeutung
AKS-Vorschaufunktionen sind auf Selbstbedienungsbasis und freiwillig verfügbar. Vorschauversionen werden „im Istzustand“ und „wie verfügbar“ bereitgestellt und sind von den Service Level Agreements und der eingeschränkten Garantie ausgeschlossen. AKS-Vorschauversionen werden teilweise vom Kundensupport auf Grundlage der bestmöglichen Leistung abgedeckt. Daher sind diese Funktionen nicht für die Verwendung in der Produktion vorgesehen. Weitere Informationen finden Sie in den folgenden Supportartikeln:
Bevor Sie anfangen
- In diesem Artikel wird vorausgesetzt, dass Sie über einen AKS-Cluster verfügen. Wenn Sie keinen Cluster haben, erstellen Sie einen mithilfe der Azure CLI, der Azure PowerShell oder im Azure-Portal.
- Sie benötigen die Azure CLI-Version 2.72.2 oder höher installiert. Führen Sie
az --versionaus, um die Version zu finden. Wenn Sie eine Installation oder ein Upgrade durchführen müssen, finden Sie weitere Informationen unter Azure CLI installieren. - Sie müssen die neueste Version der
aks-previewErweiterung installieren und aktualisieren. - Sie müssen die
ManagedGPUExperiencePreviewFeaturekennzeichnung in Ihrem Abonnement registrieren.
Einschränkungen
- Dieses Feature unterstützt derzeit nur NVIDIA GPU-fähige VM-Größen.This feature currently supports NVIDIA GPU-enabled virtual machine (VM) sizes only.
- Das Aktualisieren eines allgemeinen Knotenpools zum Hinzufügen einer GPU-VM-Größe wird auf AKS nicht unterstützt.
- Windows-Knotenpools werden mit diesem Feature nicht unterstützt, da GPU-Metriken nicht unterstützt werden. Beim Erstellen von Windows GPU-Knotenpools installiert und verwaltet AKS automatisch die Treiber und das Directx-Geräte-Plug-In. Weitere Informationen finden Sie in der Dokumentation zu AKS Windows GPU .
- Das Migrieren ihrer vorhandenen GPU-Knotenpools mit mehreren Instanzen zur Verwendung dieses Features wird nicht unterstützt.
- Direkte Upgrades zur Verwendung dieses Features auf vorhandenen GPU-fähigen Knoten werden nicht unterstützt.
Hinweis
GPU-fähige virtuelle Computer verfügen über spezielle Hardware, für die höhere Preise gelten und die möglicherweise nicht in allen Regionen verfügbar ist. Weitere Informationen finden Sie im Preistool und zur regionalen Verfügbarkeit.
Installieren Sie die aks-preview-Erweiterung für die Befehlszeilenschnittstelle
Installieren Sie die CLI-Erweiterung
aks-previewmit dem Befehlaz extension add.az extension add --name aks-previewAktualisieren Sie die Erweiterung mit dem Befehl
az extension update, um sicherzustellen, dass Sie die neueste Version installiert haben.az extension update --name aks-preview
Registrieren Sie das Feature-Flag ManagedGPUExperiencePreview in Ihrem Abonnement
Registrieren Sie die Feature-Flag
ManagedGPUExperiencePreviewin Ihrem Abonnement mithilfe desaz feature register-Befehls.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Holen Sie sich die Anmeldeinformationen für Ihren Cluster
Laden Sie die Anmeldeinformationen für den AKS-Cluster mit dem Befehl
az aks get-credentials.az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Erstellen eines AKS-verwalteten GPU-Knotenpools (Vorschau)
Sie können einem vorhandenen AKS-Cluster einen vollständig verwalteten GPU-Knotenpool (Vorschau) hinzufügen, indem Sie SKU und --tags EnableManagedGPUExperience=true Befehl des Betriebssystems angeben. In diesem Fall installiert AKS automatisch den GPU-Treiber, das GPU-Geräte-Plug-In und den Metrikexportierer.
Um die Standardmäßige Ubuntu-Betriebssystem-SKU (OS) zu verwenden, erstellen Sie den Knotenpool, ohne eine Betriebssystem-SKU anzugeben. Der Knotenpool wird basierend auf der Kubernetes-Version des Clusters für das Standardbetriebssystem konfiguriert.
Fügen Sie Ihrem Cluster einen Knotenpool hinzu, und verwenden Sie dabei den Befehl
az aks nodepool addmit dem Befehl--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueVergewissern Sie sich, dass die verwalteten NVIDIA GPU-Softwarekomponenten erfolgreich installiert werden:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \Ihre Ausgabe sollte die folgenden Werte einschließen:
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Migrieren vorhandener GPU-Workloads zu einem AKS-verwalteten GPU-Knotenpool
Direkte Upgrades von einem standardmäßigen NVIDIA GPU-Knotenpool auf einen vollständig verwalteten NVIDIA GPU-Knotenpool (Vorschau) auf Ihrem AKS-Cluster werden nicht unterstützt. Es wird empfohlen, Ihre vorhandenen GPU-Knoten abzusperren und zu entleeren und Ihre Workloads dann in einem neuen GPU-fähigen Knotenpool neu bereitzustellen, dabei ist diese Funktion aktiviert. Weitere Informationen finden Sie unter Ändern der Größe von Knotenpools auf AKS .
Bringen Sie Ihren eigenen GPU-Treiber (BYO) mit
Wenn Sie die Installation der NVIDIA-Treiber steuern oder den NVIDIA GPU-Operator verwenden möchten, können Sie die INSTALLATION des GPU-Treibers während der Erstellung des Knotenpools umgehen. In diesem Fall unterstützt oder verwaltet Microsoft nicht die Wartung und Kompatibilität der NVIDIA-Treiber als Teil der Knotenimagebereitstellung. Weitere Informationen zu NVIDIA GPU-fähigen Knoten auf AKS finden Sie unter GPU-Treiberinstallation überspringen.
Nächste Schritte
- Stellen Sie eine Beispiel-GPU-Workload auf Ihren GPU-fähigen, von AKS verwalteten Knoten bereit.
- Erfahren Sie mehr über die GPU-Auslastung und Leistungsmetriken des verwalteten NVIDIA DCGM-Exporters im GPU-Knotenpool.
Verwandte Artikel
- Erfahren Sie mehr über die GPU-Integritätsüberwachung mit Node Problem Detector (NPD) auf AKS.
- Führen Sie verteilte Rückschlüsse auf mehrere AKS-GPU-Knoten aus.