Partager via


Utiliser l’opérateur GPU NVIDIA sur Azure Kubernetes Service (AKS)

L’opérateur GPU NVIDIA automatise la gestion et le déploiement de tous les composants logiciels NVIDIA nécessaires à l’approvisionnement du GPU, notamment l’installation du pilote, le plug-in d’appareil NVIDIA pour Kubernetes, le runtime de conteneur NVIDIA, etc. Étant donné que l’opérateur GPU NVIDIA gère ces composants, il n’est pas nécessaire d’installer séparément le plug-in d’appareil NVIDIA sur votre cluster AKS. Cela signifie également que l’installation automatique du pilote GPU doit être ignorée pour utiliser l’opérateur GPU NVIDIA sur AKS.

Important

Les logiciels open source sont mentionnés dans la documentation et les exemples AKS. Les logiciels que vous déployez sont exclus des contrats de niveau de service AKS, de la garantie limitée et du support Azure. Quand vous utilisez une technologie open source avec AKS, consultez les options de support disponibles auprès des communautés et responsables de projet respectifs pour élaborer un plan.

Microsoft assume la responsabilité de la génération des packages open source que nous déployons sur AKS. Cette responsabilité comprend la maîtrise complète des processus de génération, d’analyse, de signature et de validation ainsi que l’application de correctifs logiciels et le contrôle des fichiers binaires présents dans les images conteneur. Pour plus d’informations, consultez Gestion des vulnérabilités pour AKS et Couverture du support AKS.

Avant de commencer

  • Cet article suppose que vous disposez d’un cluster AKS. Si vous n'avez pas de cluster, créez-en un à l'aide d'Azure CLI, d'Azure PowerShell ou du portail Azure.
  • Vous avez besoin d’Azure CLI version 2.72.2 ou ultérieure installée pour définir le --gpu-driver champ. Exécutez az --version pour trouver la version. Si vous devez installer ou mettre à niveau, voir Installer Azure CLI.

Remarque

Les machines virtuelles avec GPU contiennent du matériel spécialisé, plus cher et dépendant de la disponibilité régionale. Pour plus d’informations, voir l’outil de tarification et la disponibilité régionale.

Limites

Obtenir les informations d’identification de votre cluster

Obtenez les informations d’identification de votre cluster AKS à l’aide de la commande az aks get-credentials. L’exemple de commande suivant obtient les informations d’identification du cluster myAKSCluster dans le myResourceGroup groupe de ressources :

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Remarque

L’opérateur GPU NVIDIA n’est pas compatible avec plusieurs versions du système d’exploitation sur le même cluster AKS.

  1. Ignorez l’installation automatique du pilote GPU en créant un pool de nœuds avec GPU NVIDIA à l’aide de la commande [az aks nodepool add][az-aks-nodepool-add] et en définissant le champ --gpu-driver API sur la valeur none. La définition de ce champ none d’API pendant la création du pool de nœuds ignore l’installation du pilote GPU par défaut, consultez cet exemple. Les nœuds existants ne sont pas modifiés. Vous pouvez réduire le pool de nœuds à zéro, puis l'augmenter à nouveau pour que la modification prenne effet.

  2. Suivez la documentation NVIDIA pour Installer l’opérateur GPU.

  3. Maintenant que vous avez correctement installé l’opérateur GPU, vous pouvez vérifier que vos GPU sont planifiables et exécuter une charge de travail GPU.

Remarque

Il peut y avoir des considérations supplémentaires à prendre en compte lors de l’utilisation de l’opérateur GPU NVIDIA et du déploiement sur des instances SPOT. Veuillez consulter https://github.com/NVIDIA/gpu-operator/issues/577

Étapes suivantes