Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lorsque vous exécutez des charges de travail GPU dans Azure Kubernetes Service (AKS), vous devez installer et gérer plusieurs composants logiciels, notamment le pilote GPU, le plug-in d’appareil Kubernetes et l’exportateur de métriques GPU pour la télémétrie. Ces composants sont essentiels pour activer la planification GPU, l’accès GPU au niveau du conteneur, l’observabilité de l’utilisation des ressources et le bon fonctionnement des nœuds avec GPU AKS. Auparavant, les opérateurs de cluster devaient installer ces composants manuellement ou utiliser des alternatives open source comme l’opérateur GPU NVIDIA, ce qui peut entraîner une complexité et une surcharge opérationnelle.
AKS prend désormais en charge les nœuds GPU complètement managés (préversion) et installe le pilote GPU NVIDIA, le plug-in d’appareil et l’exportateur de métriques DCGM ( Data Center GPU Manager) par défaut. Cette fonctionnalité permet la création d’un pool de nœuds GPU en une étape et rend la disponibilité des ressources GPU dans AKS aussi simple que les nœuds uc à usage général.
Dans cet article, vous allez apprendre à provisionner un pool de nœuds GPU entièrement managé (préversion) dans votre cluster AKS, notamment l’installation par défaut du pilote GPU NVIDIA, le plug-in d’appareil et l’exportateur de métriques.
Important
Les fonctionnalités d’évaluation AKS sont disponibles en libre-service et font l’objet d’un abonnement. Les versions d'essai sont fournies « en l’état » et « selon disponibilité », et elles sont exclues des contrats de niveau de service et de la garantie limitée. Les versions préliminaires AKS sont, dans la mesure du possible, partiellement couvertes par le service clientèle. Par conséquent, ces fonctionnalités ne sont pas destinées à une utilisation en production. Pour plus d’informations, consultez les articles de support suivants :
Avant de commencer
- Cet article suppose que vous disposez d’un cluster AKS. Si vous n'avez pas de cluster, créez-en un à l'aide d'Azure CLI, d'Azure PowerShell ou du portail Azure.
- Vous avez besoin d’Azure CLI version 2.72.2 ou ultérieure installée. Pour connaître la version, exécutez
az --version. Si vous devez installer ou mettre à niveau, voir Installer Azure CLI. - Vous devez installer et mettre à niveau vers la dernière version de l’extension
aks-preview. - Vous devez enregistrer la fonctionnalité d'indicateur
ManagedGPUExperiencePreviewdans votre abonnement.
Limites
- Cette fonctionnalité prend actuellement en charge uniquement les tailles de machines virtuelles compatibles GPU NVIDIA .
- La mise à jour d’un pool de nœuds à usage général pour ajouter une taille de machine virtuelle GPU n’est pas prise en charge sur AKS.
- Les pools de nœuds Windows ne sont pas pris en charge avec cette fonctionnalité, car les métriques GPU ne sont pas prises en charge. Lors de la création de pools de nœuds GPU Windows, AKS installe et gère automatiquement les pilotes et le plug-in d’appareil Directx. Pour plus d’informations, consultez la documentation sur le GPU Windows AKS .
- La migration de vos pools de nœuds GPU multi-instances existants pour utiliser cette fonctionnalité n’est pas prise en charge.
- Les mises à niveau sur place pour utiliser cette fonctionnalité sur les nœuds avec GPU existants ne sont pas prises en charge.
Note
Les machines virtuelles avec GPU contiennent du matériel spécialisé, plus cher et dépendant de la disponibilité régionale. Pour plus d’informations, voir l’outil de tarification et la disponibilité régionale.
Installez l’extension CLI aks-preview
Installez l’extension CLI
aks-previewà l’aide de la commandeaz extension add.az extension add --name aks-previewMettez à jour l’extension pour vous assurer que la dernière version est installée à l’aide de la commande
az extension update.az extension update --name aks-preview
Inscrire l’indicateur de fonctionnalité ManagedGPUExperiencePreview dans votre abonnement
Inscrivez l’indicateur de fonctionnalité
ManagedGPUExperiencePreviewdans votre abonnement à l’aide de la commandeaz feature register.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Obtenir les informations d’identification de votre cluster
Obtenez les informations d’identification de votre cluster AKS à l’aide de la commande
az aks get-credentials.az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Créer un pool de nœuds GPU géré par AKS (préversion)
Vous pouvez ajouter un pool de nœuds GPU entièrement managé (préversion) à un cluster AKS existant en spécifiant le SKU de l'OS et la commande --tags EnableManagedGPUExperience=true. Lorsque vous procédez ainsi, AKS installe automatiquement le pilote GPU, le plug-in d’appareil GPU et l’exportateur de métriques.
Pour utiliser la référence SKU du système d’exploitation Ubuntu par défaut, vous créez le pool de nœuds sans spécifier de référence SKU de système d’exploitation. Le pool de nœuds est configuré pour le système d’exploitation par défaut en fonction de la version Kubernetes du cluster.
Ajoutez un pool de nœuds à votre cluster à l’aide de la commande
az aks nodepool addavec la commande--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueVérifiez que les composants logiciels GPU NVIDIA gérés sont installés correctement :
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \Votre sortie doit inclure les valeurs suivantes :
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Migrer des charges de travail GPU existantes vers un pool de nœuds GPU géré par AKS
Les mises à niveau sur place d’un pool de nœuds GPU NVIDIA standard vers un pool de nœuds GPU NVIDIA complètement managé (préversion) sur votre cluster AKS ne sont pas prises en charge. Nous vous recommandons de mettre en cordon et de vider vos nœuds GPU existants, puis de redéployer vos charges de travail vers un nouveau pool de nœuds avec GPU avec cette fonctionnalité activée. Pour en savoir plus , consultez Redimensionner des pools de nœuds sur AKS .
Apportez votre propre pilote GPU
Si vous souhaitez contrôler l’installation des pilotes NVIDIA ou utiliser l’opérateur GPU NVIDIA, vous pouvez contourner l’installation du pilote GPU lors de la création du pool de nœuds. Dans ce cas, Microsoft ne prend pas en charge ni ne gère la maintenance et la compatibilité des pilotes NVIDIA dans le cadre du déploiement d’images de nœud. Pour en savoir plus, consultez Sauter l’installation des pilotes GPU pour les nœuds AKS équipés de GPU NVIDIA.
Étapes suivantes
- Déployez un exemple de charge de travail GPU sur vos nœuds avec GPU gérés par AKS.
- Découvrez l’utilisation du GPU et les métriques de performances de l’exportateur NVIDIA DCGM managé sur votre pool de nœuds GPU.
Articles connexes
- En savoir plus sur la surveillance de l’intégrité GPU avec Le détecteur de problèmes de nœud (NPD) sur AKS.
- Exécutez l’inférence distribuée sur plusieurs nœuds GPU AKS.