Partilhar via


Criar um pool de nós de GPU totalmente gerenciado no Serviço Kubernetes do Azure (AKS) (visualização)

Ao executar cargas de trabalho de GPU no Serviço Kubernetes do Azure (AKS), você precisa instalar e manter vários componentes de software, incluindo o driver da GPU, o plug-in de dispositivo Kubernetes e o exportador de métricas de GPU para telemetria. Esses componentes são essenciais para permitir o agendamento da GPU, o acesso à GPU no nível do contêiner, a observabilidade do uso de recursos e o funcionamento adequado dos nós habilitados para GPU AKS. Anteriormente, os operadores de cluster tinham que instalar esses componentes manualmente ou usar alternativas de código aberto, como o NVIDIA GPU Operator, que pode introduzir complexidade e sobrecarga operacional.

O AKS agora suporta nós de GPU totalmente gerenciados (visualização) e instala o driver de GPU NVIDIA, plug-in de dispositivo e exportador de métricas do Data Center GPU Manager (DCGM) por padrão. Esse recurso permite a criação de um pool de nós GPU em uma etapa e torna a disponibilidade de recursos de GPU no AKS tão simples quanto nós de CPU de uso geral.

Neste artigo, você aprenderá a provisionar um pool de nós de GPU totalmente gerenciado (visualização) em seu cluster AKS, incluindo a instalação padrão do driver de GPU NVIDIA, plug-in de dispositivo e exportador de métricas.

Importante

Os recursos de pré-visualização do AKS estão disponíveis numa base de autosserviço e adesão voluntária. As visualizações prévias são fornecidas "como estão" e "conforme disponíveis" e são excluídas dos contratos de nível de serviço e da garantia limitada. As versões de teste do AKS são parcialmente cobertas pelo suporte ao cliente numa base de melhor esforço. Assim sendo, estas funcionalidades não se destinam ao uso em produção. Para obter mais informações, consulte os seguintes artigos de suporte:

Antes de começar

Limitações

  • Atualmente, esse recurso suporta apenas tamanhos de máquina virtual (VM) habilitada para GPU NVIDIA .
  • A atualização de um pool de nós de uso geral para adicionar um tamanho de VM GPU não é suportada no AKS.
  • Os pools de nós do Windows não são suportados com esse recurso, porque as métricas de GPU não são suportadas. Ao criar pools de nós de GPU do Windows, o AKS instala e gerencia automaticamente os drivers e o plug-in de dispositivo Directx. Consulte a documentação da GPU do Windows AKS para obter mais informações.
  • Não há suporte para a migração de pools de nós de GPU de várias instâncias existentes para usar esse recurso.
  • Não tem suporte para atualizações no local para usar este recurso em nós existentes habilitados para GPU.

Observação

As VMs habilitadas para GPU contêm hardware especializado sujeito a preços mais altos e disponibilidade de região. Para obter mais informações, consulte a ferramenta de preços e a disponibilidade da região.

Instalar a aks-preview extensão CLI

  1. Instale a aks-preview extensão CLI usando o az extension add comando.

    az extension add --name aks-preview
    
  2. Atualize a extensão para garantir que tem a versão mais recente instalada, utilizando o comando az extension update.

    az extension update --name aks-preview
    

Registe o ManagedGPUExperiencePreview sinalizador de recurso na sua subscrição

  • Registar o flag de funcionalidade ManagedGPUExperiencePreview na sua subscrição utilizando o comando az feature register.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Obtenha as credenciais para o seu cluster

  • Obtenha as credenciais para o seu cluster AKS usando o az aks get-credentials comando.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Criar um pool de nós GPU gerido pelo AKS (pré-visualização)

Você pode adicionar um pool de nós GPU totalmente gerido (em pré-visualização) a um cluster AKS existente ao especificar o SKU de SO e executar o comando --tags EnableManagedGPUExperience=true. Quando você fizer isso, o AKS instalará o driver da GPU, o plug-in do dispositivo GPU e o exportador de métricas automaticamente.

Para usar o SKU padrão do sistema operacional Ubuntu (OS), você cria o pool de nós sem especificar um SKU do sistema operacional. O conjunto de nós é configurado para utilizar o sistema operacional padrão com base na versão do Kubernetes do cluster.

  1. Adicione um pool de nós ao cluster utilizando os comandos az aks nodepool add e --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Confirme se os componentes de software da GPU NVIDIA gerenciados foram instalados com êxito:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    Sua saída deve incluir os seguintes valores:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migrar cargas de trabalho de GPU existentes para um pool de nós de GPU gerenciado pelo AKS

Não há suporte para atualizações no local de um pool de nós de GPU NVIDIA padrão para um pool de nós de GPU NVIDIA totalmente gerido (visualização) no seu cluster AKS. Recomendamos cordoar e drenar os nós de GPU existentes e, em seguida, reimplantar suas cargas de trabalho em um novo pool de nós habilitado para GPU com esse recurso habilitado. Consulte Redimensionar pools de nós no AKS para saber mais.

Traga seu próprio driver de GPU (BYO)

Se você quiser controlar a instalação dos drivers NVIDIA ou usar o operador de GPU NVIDIA, você pode ignorar a instalação do driver de GPU durante a criação do pool de nós. Nesse caso, a Microsoft não oferece suporte nem gerencia a manutenção e a compatibilidade dos drivers NVIDIA como parte da implantação da imagem do nó. Consulte Ignorar a instalação do driver de GPU para nós habilitados para GPU NVIDIA no AKS para obter mais informações.

Próximos passos