Partager via


Créer un pool de nœuds GPU entièrement managé sur Azure Kubernetes Service (AKS) (préversion)

Lorsque vous exécutez des charges de travail GPU dans Azure Kubernetes Service (AKS), vous devez installer et gérer plusieurs composants logiciels, notamment le pilote GPU, le plug-in d’appareil Kubernetes et l’exportateur de métriques GPU pour la télémétrie. Ces composants sont essentiels pour activer la planification GPU, l’accès GPU au niveau du conteneur, l’observabilité de l’utilisation des ressources et le bon fonctionnement des nœuds avec GPU AKS. Auparavant, les opérateurs de cluster devaient installer ces composants manuellement ou utiliser des alternatives open source comme l’opérateur GPU NVIDIA, ce qui peut entraîner une complexité et une surcharge opérationnelle.

AKS prend désormais en charge les nœuds GPU complètement managés (préversion) et installe le pilote GPU NVIDIA, le plug-in d’appareil et l’exportateur de métriques DCGM ( Data Center GPU Manager) par défaut. Cette fonctionnalité permet la création d’un pool de nœuds GPU en une étape et rend la disponibilité des ressources GPU dans AKS aussi simple que les nœuds uc à usage général.

Dans cet article, vous allez apprendre à provisionner un pool de nœuds GPU entièrement managé (préversion) dans votre cluster AKS, notamment l’installation par défaut du pilote GPU NVIDIA, le plug-in d’appareil et l’exportateur de métriques.

Important

Les fonctionnalités d’évaluation AKS sont disponibles en libre-service et font l’objet d’un abonnement. Les versions d'essai sont fournies « en l’état » et « selon disponibilité », et elles sont exclues des contrats de niveau de service et de la garantie limitée. Les versions préliminaires AKS sont, dans la mesure du possible, partiellement couvertes par le service clientèle. Par conséquent, ces fonctionnalités ne sont pas destinées à une utilisation en production. Pour plus d’informations, consultez les articles de support suivants :

Avant de commencer

Limites

  • Cette fonctionnalité prend actuellement en charge uniquement les tailles de machines virtuelles compatibles GPU NVIDIA .
  • La mise à jour d’un pool de nœuds à usage général pour ajouter une taille de machine virtuelle GPU n’est pas prise en charge sur AKS.
  • Les pools de nœuds Windows ne sont pas pris en charge avec cette fonctionnalité, car les métriques GPU ne sont pas prises en charge. Lors de la création de pools de nœuds GPU Windows, AKS installe et gère automatiquement les pilotes et le plug-in d’appareil Directx. Pour plus d’informations, consultez la documentation sur le GPU Windows AKS .
  • La migration de vos pools de nœuds GPU multi-instances existants pour utiliser cette fonctionnalité n’est pas prise en charge.
  • Les mises à niveau sur place pour utiliser cette fonctionnalité sur les nœuds avec GPU existants ne sont pas prises en charge.

Note

Les machines virtuelles avec GPU contiennent du matériel spécialisé, plus cher et dépendant de la disponibilité régionale. Pour plus d’informations, voir l’outil de tarification et la disponibilité régionale.

Installez l’extension CLI aks-preview

  1. Installez l’extension CLI aks-preview à l’aide de la commande az extension add.

    az extension add --name aks-preview
    
  2. Mettez à jour l’extension pour vous assurer que la dernière version est installée à l’aide de la commande az extension update.

    az extension update --name aks-preview
    

Inscrire l’indicateur de fonctionnalité ManagedGPUExperiencePreview dans votre abonnement

  • Inscrivez l’indicateur de fonctionnalité ManagedGPUExperiencePreview dans votre abonnement à l’aide de la commande az feature register.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Obtenir les informations d’identification de votre cluster

  • Obtenez les informations d’identification de votre cluster AKS à l’aide de la commande az aks get-credentials.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Créer un pool de nœuds GPU géré par AKS (préversion)

Vous pouvez ajouter un pool de nœuds GPU entièrement managé (préversion) à un cluster AKS existant en spécifiant le SKU de l'OS et la commande --tags EnableManagedGPUExperience=true. Lorsque vous procédez ainsi, AKS installe automatiquement le pilote GPU, le plug-in d’appareil GPU et l’exportateur de métriques.

Pour utiliser la référence SKU du système d’exploitation Ubuntu par défaut, vous créez le pool de nœuds sans spécifier de référence SKU de système d’exploitation. Le pool de nœuds est configuré pour le système d’exploitation par défaut en fonction de la version Kubernetes du cluster.

  1. Ajoutez un pool de nœuds à votre cluster à l’aide de la commande az aks nodepool add avec la commande --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Vérifiez que les composants logiciels GPU NVIDIA gérés sont installés correctement :

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    Votre sortie doit inclure les valeurs suivantes :

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migrer des charges de travail GPU existantes vers un pool de nœuds GPU géré par AKS

Les mises à niveau sur place d’un pool de nœuds GPU NVIDIA standard vers un pool de nœuds GPU NVIDIA complètement managé (préversion) sur votre cluster AKS ne sont pas prises en charge. Nous vous recommandons de mettre en cordon et de vider vos nœuds GPU existants, puis de redéployer vos charges de travail vers un nouveau pool de nœuds avec GPU avec cette fonctionnalité activée. Pour en savoir plus , consultez Redimensionner des pools de nœuds sur AKS .

Apportez votre propre pilote GPU

Si vous souhaitez contrôler l’installation des pilotes NVIDIA ou utiliser l’opérateur GPU NVIDIA, vous pouvez contourner l’installation du pilote GPU lors de la création du pool de nœuds. Dans ce cas, Microsoft ne prend pas en charge ni ne gère la maintenance et la compatibilité des pilotes NVIDIA dans le cadre du déploiement d’images de nœud. Pour en savoir plus, consultez Sauter l’installation des pilotes GPU pour les nœuds AKS équipés de GPU NVIDIA.

Étapes suivantes