Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Al ejecutar cargas de trabajo de GPU en Azure Kubernetes Service (AKS), debe instalar y mantener varios componentes de software, como el controlador de GPU, el complemento de dispositivo kubernetes y el exportador de métricas de GPU para la telemetría. Estos componentes son esenciales para habilitar la programación de GPU, el acceso a GPU de nivel de contenedor, la observabilidad del uso de recursos y el funcionamiento adecuado de los nodos habilitados para GPU de AKS. Anteriormente, los operadores de clúster tenían que instalar estos componentes manualmente o usar alternativas de código abierto, como el operador de GPU de NVIDIA, que puede introducir complejidad y sobrecarga operativa.
AKS ahora admite nodos de GPU totalmente administrados (versión preliminar) e instala el controlador de GPU nvidia, el complemento de dispositivo y el exportador de métricas del Administrador de GPU del centro de datos (DCGM) de forma predeterminada. Esta característica permite la creación de grupos de nodos de GPU de un solo paso y hace que la disponibilidad de los recursos de GPU en AKS sea tan simple como nodos de CPU de uso general.
En este artículo, aprenderá a aprovisionar un grupo de nodos de GPU totalmente administrado (versión preliminar) en el clúster de AKS, incluida la instalación predeterminada del controlador de GPU de NVIDIA, el complemento de dispositivo y el exportador de métricas.
Importante
Las características en versión preliminar de AKS están disponibles a elección del usuario y en régimen de autoservicio. Las versiones preliminares se proporcionan "tal cual" y "como están disponibles", y están excluidas de los Acuerdos de nivel de servicio y garantía limitada. Las versiones preliminares de AKS cuentan con soporte parcial por parte del servicio al cliente en la medida de lo posible. Por lo tanto, estas características no están diseñadas para su uso en producción. Para más información, consulte los siguientes artículos de soporte:
Antes de empezar
- Este artículo supone que ya tiene un clúster de AKS. Si no dispone de un clúster, cree uno mediante Azure CLI, Azure PowerShell o el Azure Portal.
- Necesita tener instalada la versión 2.72.2 o posterior de la CLI de Azure. Para encontrar la versión, ejecute
az --version. Si necesita instalarla o actualizarla, vea Instalación de la CLI de Azure. - Debe instalar y actualizar a la versión más reciente de la
aks-previewextensión. - Debe registrar la
ManagedGPUExperiencePreviewmarca de características en la suscripción.
Limitaciones
- Esta característica solo admite tamaños de máquina virtual (VM) habilitados para GPU nvidia .
- No se admite la actualización de un grupo de nodos de uso general para agregar un tamaño de máquina virtual de GPU en AKS.
- Los grupos de nodos de Windows no se admiten con esta característica, ya que no se admiten las métricas de GPU. Al crear grupos de nodos de GPU de Windows, AKS instala y administra automáticamente los controladores y el complemento de dispositivo Directx. Consulte la documentación de GPU de Windows de AKS para obtener más información.
- No se admite la migración de los grupos de nodos de GPU de varias instancias existentes para usar esta característica.
- No se admiten las actualizaciones in situ para usar esta característica en los nodos habilitados para GPU existentes.
Nota:
Las máquinas virtuales habilitadas para GPU contienen hardware especializado que está sujeto a precios más altos y disponibilidad limitada según la región. Para obtener más información, consulte la herramienta de precios y la disponibilidad de regiones.
Instalación de la extensión aks-preview de la CLI
Instale la extensión
aks-previewde la CLI mediante el comandoaz extension add.az extension add --name aks-previewActualice la extensión para asegurarse de que tiene instalada la última versión mediante el comando
az extension update.az extension update --name aks-preview
Registre la bandera de funciones ManagedGPUExperiencePreview en su suscripción
Registre la marca de características
ManagedGPUExperiencePreviewen su suscripción con el comandoaz feature register.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Obtención de las credenciales del clúster
Obtenga las credenciales del clúster de AKS mediante el comando
az aks get-credentials.az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Creación de un grupo de nodos de GPU administrados por AKS (versión preliminar)
Puede agregar un grupo de nodos de GPU totalmente administrado (vista previa) a un clúster de AKS existente especificando la SKU del sistema operativo y el comando --tags EnableManagedGPUExperience=true. Al hacerlo, AKS instalará automáticamente el controlador de GPU, el complemento de dispositivos GPU y el exportador de métricas.
Para usar la SKU predeterminada del sistema operativo Ubuntu (SO), cree el grupo de nodos sin especificar una SKU del sistema operativo. El grupo de nodos está configurado para el sistema operativo predeterminado en función de la versión de Kubernetes del clúster.
Agregue un grupo de nodos a su clúster mediante el comando
az aks nodepool addjunto con el comando--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueConfirme que los componentes de software de GPU de NVIDIA administrados se instalan correctamente:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \La salida debe incluir los siguientes valores:
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Migración de cargas de trabajo de GPU existentes a un grupo de nodos de GPU administrados por AKS
No se admiten las actualizaciones in situ de un grupo de nodos de GPU de NVIDIA estándar a un grupo de nodos de GPU de NVIDIA totalmente administrado (vista previa) en el clúster de AKS. Se recomienda acordonar y purgar los nodos de GPU existentes y, a continuación, volver a implementar las cargas de trabajo en un nuevo grupo de nodos habilitado para GPU con esta característica habilitada. Consulte Cambio de tamaño de los grupos de nodos en AKS para obtener más información.
Traiga su propio controlador de GPU (BYO)
Si desea controlar la instalación de los controladores NVIDIA o usar el operador de GPU de NVIDIA, puede omitir la instalación del controlador de GPU durante la creación del grupo de nodos. En este caso, Microsoft no admite ni administra el mantenimiento y la compatibilidad de los controladores NVIDIA como parte de la implementación de la imagen de nodo. Consulte Omitir la instalación del controlador de GPU para nodos habilitados para GPU de NVIDIA en AKS para obtener más información.
Pasos siguientes
- Implemente una carga de trabajo de GPU de ejemplo en los nodos habilitados para GPU administrados por AKS.
- Obtenga información sobre el uso de GPU y las métricas de rendimiento del exportador de NVIDIA DCGM administrado en el grupo de nodos de GPU.
Artículos relacionados
- Obtenga información sobre la supervisión del estado de GPU con Node Problem Detector (NPD) en AKS.
- Ejecute la inferencia distribuida en varios nodos de GPU de AKS.