Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
L’opérateur GPU NVIDIA automatise la gestion et le déploiement de tous les composants logiciels NVIDIA nécessaires à l’approvisionnement du GPU, notamment l’installation du pilote, le plug-in d’appareil NVIDIA pour Kubernetes, le runtime de conteneur NVIDIA, etc. Étant donné que l’opérateur GPU NVIDIA gère ces composants, il n’est pas nécessaire d’installer séparément le plug-in d’appareil NVIDIA sur votre cluster AKS. Cela signifie également que l’installation automatique du pilote GPU doit être ignorée pour utiliser l’opérateur GPU NVIDIA sur AKS.
Important
Les logiciels open source sont mentionnés dans la documentation et les exemples AKS. Les logiciels que vous déployez sont exclus des contrats de niveau de service AKS, de la garantie limitée et du support Azure. Quand vous utilisez une technologie open source avec AKS, consultez les options de support disponibles auprès des communautés et responsables de projet respectifs pour élaborer un plan.
Microsoft assume la responsabilité de la génération des packages open source que nous déployons sur AKS. Cette responsabilité comprend la maîtrise complète des processus de génération, d’analyse, de signature et de validation ainsi que l’application de correctifs logiciels et le contrôle des fichiers binaires présents dans les images conteneur. Pour plus d’informations, consultez Gestion des vulnérabilités pour AKS et Couverture du support AKS.
Avant de commencer
- Cet article suppose que vous disposez d’un cluster AKS. Si vous n'avez pas de cluster, créez-en un à l'aide d'Azure CLI, d'Azure PowerShell ou du portail Azure.
- Vous avez besoin d’Azure CLI version 2.72.2 ou ultérieure installée pour définir le
--gpu-driverchamp. Exécutezaz --versionpour trouver la version. Si vous devez installer ou mettre à niveau, voir Installer Azure CLI.
Remarque
Les machines virtuelles avec GPU contiennent du matériel spécialisé, plus cher et dépendant de la disponibilité régionale. Pour plus d’informations, voir l’outil de tarification et la disponibilité régionale.
Limites
- L’opérateur GPU NVIDIA n’est pas pris en charge pour les options de système d’exploitation suivantes : versions de Windows Server, Flatcar Container Linux pour AKS (préversion) et Azure Linux avec OS Guard pour AKS (préversion).
Obtenir les informations d’identification de votre cluster
Obtenez les informations d’identification de votre cluster AKS à l’aide de la commande az aks get-credentials. L’exemple de commande suivant obtient les informations d’identification du cluster myAKSCluster dans le myResourceGroup groupe de ressources :
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Remarque
L’opérateur GPU NVIDIA n’est pas compatible avec plusieurs versions du système d’exploitation sur le même cluster AKS.
Ignorez l’installation automatique du pilote GPU en créant un pool de nœuds avec GPU NVIDIA à l’aide de la commande [
az aks nodepool add][az-aks-nodepool-add] et en définissant le champ--gpu-driverAPI sur la valeurnone. La définition de ce champnoned’API pendant la création du pool de nœuds ignore l’installation du pilote GPU par défaut, consultez cet exemple. Les nœuds existants ne sont pas modifiés. Vous pouvez réduire le pool de nœuds à zéro, puis l'augmenter à nouveau pour que la modification prenne effet.Suivez la documentation NVIDIA pour Installer l’opérateur GPU.
Maintenant que vous avez correctement installé l’opérateur GPU, vous pouvez vérifier que vos GPU sont planifiables et exécuter une charge de travail GPU.
Remarque
Il peut y avoir des considérations supplémentaires à prendre en compte lors de l’utilisation de l’opérateur GPU NVIDIA et du déploiement sur des instances SPOT. Veuillez consulter https://github.com/NVIDIA/gpu-operator/issues/577
Étapes suivantes
- Surveillez les métriques GPU NVIDIA à l’aide d’Azure Managed Prometheus et d’Azure Managed Grafana.
- En savoir plus sur les clusters Ray sur AKS.