Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El operador de GPU de NVIDIA automatiza la administración e implementación de todos los componentes de software de NVIDIA necesarios para aprovisionar gpu, incluida la instalación del controlador, el complemento de dispositivo NVIDIA para Kubernetes, el entorno de ejecución del contenedor nvidia, etc. Dado que el operador de GPU de NVIDIA controla estos componentes, no es necesario instalar por separado el complemento de dispositivo NVIDIA en el clúster de AKS. Esto también significa que se debe omitir la instalación automática del controlador de GPU para poder usar el operador de GPU nvidia en AKS.
Importante
El software de código abierto se menciona en toda la documentación y ejemplos de AKS. El software que implemente se excluye de los contratos de nivel de servicio de AKS, la garantía limitada y el soporte técnico de Azure. A medida que usa la tecnología de código abierto junto con AKS, consulte las opciones de soporte técnico disponibles en las comunidades y los mantenedores de proyectos respectivos para desarrollar un plan.
Microsoft asume la responsabilidad de crear los paquetes de código abierto que implementamos en AKS. Esa responsabilidad incluye ser plenamente responsable del proceso de compilación, escaneo, firma, validación y corrección rápida, junto con el control de los binarios en las imágenes de contenedor. Para obtener más información, consulte Administración de vulnerabilidades para AKS y cobertura de soporte técnico de AKS.
Antes de empezar
- Este artículo supone que ya tiene un clúster de AKS. Si no tiene un clúster, cree uno mediante la CLI de Azure, Azure PowerShell o Azure Portal.
- Necesita la versión 2.72.2 de la CLI de Azure o posterior instalada para establecer el
--gpu-drivercampo. Ejecuteaz --versionpara encontrar la versión. Si necesita instalarla o actualizarla, vea Instalación de la CLI de Azure.
Nota:
Las máquinas virtuales habilitadas para GPU contienen hardware especializado que está sujeto a precios más altos y disponibilidad limitada según la región. Para obtener más información, consulte la herramienta de precios y la disponibilidad de regiones.
Limitaciones
- El operador de GPU nvidia no es compatible con las siguientes opciones del sistema operativo: versiones de Windows Server, Flatcar Container Linux para AKS (versión preliminar) y Azure Linux con OS Guard para AKS (versión preliminar).
Obtención de las credenciales del clúster
Obtenga las credenciales del clúster de AKS mediante el comando az aks get-credentials. El siguiente comando de ejemplo obtiene las credenciales del clúster myAKSCluster en el myResourceGroup grupo de recursos:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Nota:
El operador de GPU de NVIDIA no es compatible con varias versiones del sistema operativo en el mismo clúster de AKS.
Omita la instalación automática del controlador de GPU mediante la creación de un grupo de nodos habilitado para GPU de NVIDIA mediante el comando [
az aks nodepool add][az-aks-nodepool-add] y establezca el campo--gpu-driverde API en el valornone. Al establecer este campo de API ennonedurante la creación del grupo de nodos, se omite la instalación predeterminada del controlador de GPU, consulte este ejemplo. No se cambian los nodos existentes. Puede escalar el grupo de nodos a cero y luego aumentarlo de nuevo para que el cambio tenga efecto.Siga la documentación de NVIDIA para instalar el operador de GPU.
Ahora que instaló correctamente el operador de GPU, puede comprobar que las GPU son programables y ejecutan una carga de trabajo de GPU.
Nota:
Puede haber consideraciones adicionales a tener en cuenta al usar el NVIDIA GPU Operator y desplegar en instancias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577.
Pasos siguientes
- Supervise las métricas de GPU de NVIDIA mediante Azure Managed Prometheus y Azure Managed Grafana.
- Obtenga más información sobre los clústeres de Ray en AKS.