Freigeben über


Erstellen eines vollständig verwalteten GPU-Knotenpools in Azure Kubernetes Service (AKS) (Vorschau)

Wenn Sie GPU-Workloads in Azure Kubernetes Service (AKS) ausführen, müssen Sie mehrere Softwarekomponenten installieren und verwalten, einschließlich des GPU-Treibers, des Kubernetes-Geräte-Plug-Ins und des GPU-Metrikexporteurs für Telemetrie. Diese Komponenten sind für die Aktivierung der GPU-Planung, des GPU-Zugriffs auf Containerebene, der Beobachtbarkeit der Ressourcennutzung und der ordnungsgemäßen Funktion von AKS GPU-fähigen Knoten unerlässlich. Bisher mussten Clusteroperatoren diese Komponenten entweder manuell installieren oder Open-Source-Alternativen wie den NVIDIA GPU Operator verwenden, was Komplexität und Betriebsaufwand verursachen kann.

AKS unterstützt jetzt vollständig verwaltete GPU-Knoten (Vorschau) und installiert standardmäßig den NVIDIA GPU-Treiber, das Geräte-Plug-In und den Data Center GPU Manager (DCGM)-Metrikexporteur . Dieses Feature ermöglicht die Erstellung eines GPU-Knotenpools in nur einem Schritt und macht die Verfügbarkeit von GPU-Ressourcen in AKS genauso einfach wie bei allgemeinen CPU-Knoten.

In diesem Artikel erfahren Sie, wie Sie einen vollständig verwalteten GPU-Knotenpool (Vorschau) in Ihrem AKS-Cluster bereitstellen, einschließlich der Standardinstallation des NVIDIA GPU-Treibers, des Geräte-Plug-Ins und des Metrikexporteurs.

Von Bedeutung

AKS-Vorschaufunktionen sind auf Selbstbedienungsbasis und freiwillig verfügbar. Vorschauversionen werden „im Istzustand“ und „wie verfügbar“ bereitgestellt und sind von den Service Level Agreements und der eingeschränkten Garantie ausgeschlossen. AKS-Vorschauversionen werden teilweise vom Kundensupport auf Grundlage der bestmöglichen Leistung abgedeckt. Daher sind diese Funktionen nicht für die Verwendung in der Produktion vorgesehen. Weitere Informationen finden Sie in den folgenden Supportartikeln:

Bevor Sie anfangen

Einschränkungen

Hinweis

GPU-fähige virtuelle Computer verfügen über spezielle Hardware, für die höhere Preise gelten und die möglicherweise nicht in allen Regionen verfügbar ist. Weitere Informationen finden Sie im Preistool und zur regionalen Verfügbarkeit.

Installieren Sie die aks-preview-Erweiterung für die Befehlszeilenschnittstelle

  1. Installieren Sie die CLI-Erweiterung aks-preview mit dem Befehl az extension add.

    az extension add --name aks-preview
    
  2. Aktualisieren Sie die Erweiterung mit dem Befehl az extension update, um sicherzustellen, dass Sie die neueste Version installiert haben.

    az extension update --name aks-preview
    

Registrieren Sie das Feature-Flag ManagedGPUExperiencePreview in Ihrem Abonnement

  • Registrieren Sie die Feature-Flag ManagedGPUExperiencePreview in Ihrem Abonnement mithilfe des az feature register-Befehls.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Holen Sie sich die Anmeldeinformationen für Ihren Cluster

  • Laden Sie die Anmeldeinformationen für den AKS-Cluster mit dem Befehl az aks get-credentials.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Erstellen eines AKS-verwalteten GPU-Knotenpools (Vorschau)

Sie können einem vorhandenen AKS-Cluster einen vollständig verwalteten GPU-Knotenpool (Vorschau) hinzufügen, indem Sie SKU und --tags EnableManagedGPUExperience=true Befehl des Betriebssystems angeben. In diesem Fall installiert AKS automatisch den GPU-Treiber, das GPU-Geräte-Plug-In und den Metrikexportierer.

Um die Standardmäßige Ubuntu-Betriebssystem-SKU (OS) zu verwenden, erstellen Sie den Knotenpool, ohne eine Betriebssystem-SKU anzugeben. Der Knotenpool wird basierend auf der Kubernetes-Version des Clusters für das Standardbetriebssystem konfiguriert.

  1. Fügen Sie Ihrem Cluster einen Knotenpool hinzu, und verwenden Sie dabei den Befehl az aks nodepool add mit dem Befehl --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Vergewissern Sie sich, dass die verwalteten NVIDIA GPU-Softwarekomponenten erfolgreich installiert werden:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    Ihre Ausgabe sollte die folgenden Werte einschließen:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migrieren vorhandener GPU-Workloads zu einem AKS-verwalteten GPU-Knotenpool

Direkte Upgrades von einem standardmäßigen NVIDIA GPU-Knotenpool auf einen vollständig verwalteten NVIDIA GPU-Knotenpool (Vorschau) auf Ihrem AKS-Cluster werden nicht unterstützt. Es wird empfohlen, Ihre vorhandenen GPU-Knoten abzusperren und zu entleeren und Ihre Workloads dann in einem neuen GPU-fähigen Knotenpool neu bereitzustellen, dabei ist diese Funktion aktiviert. Weitere Informationen finden Sie unter Ändern der Größe von Knotenpools auf AKS .

Bringen Sie Ihren eigenen GPU-Treiber (BYO) mit

Wenn Sie die Installation der NVIDIA-Treiber steuern oder den NVIDIA GPU-Operator verwenden möchten, können Sie die INSTALLATION des GPU-Treibers während der Erstellung des Knotenpools umgehen. In diesem Fall unterstützt oder verwaltet Microsoft nicht die Wartung und Kompatibilität der NVIDIA-Treiber als Teil der Knotenimagebereitstellung. Weitere Informationen zu NVIDIA GPU-fähigen Knoten auf AKS finden Sie unter GPU-Treiberinstallation überspringen.

Nächste Schritte