Compartir a través de


Creación de un grupo de nodos de GPU totalmente administrado en Azure Kubernetes Service (AKS) (versión preliminar)

Al ejecutar cargas de trabajo de GPU en Azure Kubernetes Service (AKS), debe instalar y mantener varios componentes de software, como el controlador de GPU, el complemento de dispositivo kubernetes y el exportador de métricas de GPU para la telemetría. Estos componentes son esenciales para habilitar la programación de GPU, el acceso a GPU de nivel de contenedor, la observabilidad del uso de recursos y el funcionamiento adecuado de los nodos habilitados para GPU de AKS. Anteriormente, los operadores de clúster tenían que instalar estos componentes manualmente o usar alternativas de código abierto, como el operador de GPU de NVIDIA, que puede introducir complejidad y sobrecarga operativa.

AKS ahora admite nodos de GPU totalmente administrados (versión preliminar) e instala el controlador de GPU nvidia, el complemento de dispositivo y el exportador de métricas del Administrador de GPU del centro de datos (DCGM) de forma predeterminada. Esta característica permite la creación de grupos de nodos de GPU de un solo paso y hace que la disponibilidad de los recursos de GPU en AKS sea tan simple como nodos de CPU de uso general.

En este artículo, aprenderá a aprovisionar un grupo de nodos de GPU totalmente administrado (versión preliminar) en el clúster de AKS, incluida la instalación predeterminada del controlador de GPU de NVIDIA, el complemento de dispositivo y el exportador de métricas.

Importante

Las características en versión preliminar de AKS están disponibles a elección del usuario y en régimen de autoservicio. Las versiones preliminares se proporcionan "tal cual" y "como están disponibles", y están excluidas de los Acuerdos de nivel de servicio y garantía limitada. Las versiones preliminares de AKS cuentan con soporte parcial por parte del servicio al cliente en la medida de lo posible. Por lo tanto, estas características no están diseñadas para su uso en producción. Para más información, consulte los siguientes artículos de soporte:

Antes de empezar

Limitaciones

  • Esta característica solo admite tamaños de máquina virtual (VM) habilitados para GPU nvidia .
  • No se admite la actualización de un grupo de nodos de uso general para agregar un tamaño de máquina virtual de GPU en AKS.
  • Los grupos de nodos de Windows no se admiten con esta característica, ya que no se admiten las métricas de GPU. Al crear grupos de nodos de GPU de Windows, AKS instala y administra automáticamente los controladores y el complemento de dispositivo Directx. Consulte la documentación de GPU de Windows de AKS para obtener más información.
  • No se admite la migración de los grupos de nodos de GPU de varias instancias existentes para usar esta característica.
  • No se admiten las actualizaciones in situ para usar esta característica en los nodos habilitados para GPU existentes.

Nota:

Las máquinas virtuales habilitadas para GPU contienen hardware especializado que está sujeto a precios más altos y disponibilidad limitada según la región. Para obtener más información, consulte la herramienta de precios y la disponibilidad de regiones.

Instalación de la extensión aks-preview de la CLI

  1. Instale la extensión aks-preview de la CLI mediante el comando az extension add.

    az extension add --name aks-preview
    
  2. Actualice la extensión para asegurarse de que tiene instalada la última versión mediante el comando az extension update.

    az extension update --name aks-preview
    

Registre la bandera de funciones ManagedGPUExperiencePreview en su suscripción

  • Registre la marca de características ManagedGPUExperiencePreview en su suscripción con el comando az feature register.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Obtención de las credenciales del clúster

  • Obtenga las credenciales del clúster de AKS mediante el comando az aks get-credentials.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Creación de un grupo de nodos de GPU administrados por AKS (versión preliminar)

Puede agregar un grupo de nodos de GPU totalmente administrado (vista previa) a un clúster de AKS existente especificando la SKU del sistema operativo y el comando --tags EnableManagedGPUExperience=true. Al hacerlo, AKS instalará automáticamente el controlador de GPU, el complemento de dispositivos GPU y el exportador de métricas.

Para usar la SKU predeterminada del sistema operativo Ubuntu (SO), cree el grupo de nodos sin especificar una SKU del sistema operativo. El grupo de nodos está configurado para el sistema operativo predeterminado en función de la versión de Kubernetes del clúster.

  1. Agregue un grupo de nodos a su clúster mediante el comando az aks nodepool add junto con el comando --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Confirme que los componentes de software de GPU de NVIDIA administrados se instalan correctamente:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    La salida debe incluir los siguientes valores:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migración de cargas de trabajo de GPU existentes a un grupo de nodos de GPU administrados por AKS

No se admiten las actualizaciones in situ de un grupo de nodos de GPU de NVIDIA estándar a un grupo de nodos de GPU de NVIDIA totalmente administrado (vista previa) en el clúster de AKS. Se recomienda acordonar y purgar los nodos de GPU existentes y, a continuación, volver a implementar las cargas de trabajo en un nuevo grupo de nodos habilitado para GPU con esta característica habilitada. Consulte Cambio de tamaño de los grupos de nodos en AKS para obtener más información.

Traiga su propio controlador de GPU (BYO)

Si desea controlar la instalación de los controladores NVIDIA o usar el operador de GPU de NVIDIA, puede omitir la instalación del controlador de GPU durante la creación del grupo de nodos. En este caso, Microsoft no admite ni administra el mantenimiento y la compatibilidad de los controladores NVIDIA como parte de la implementación de la imagen de nodo. Consulte Omitir la instalación del controlador de GPU para nodos habilitados para GPU de NVIDIA en AKS para obtener más información.

Pasos siguientes