Partilhar via


Usar o operador de GPU NVIDIA no Serviço Kubernetes do Azure (AKS)

O NVIDIA GPU Operator automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in do dispositivo NVIDIA para Kubernetes, o tempo de execução do contêiner NVIDIA e muito mais. Como o operador de GPU NVIDIA lida com esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA em seu cluster AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o operador de GPU NVIDIA no AKS.

Importante

O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta é excluído dos contratos de nível de serviço do AKS, da garantia limitada e do suporte do Azure. Ao usar a tecnologia de código aberto ao lado do AKS, consulte as opções de suporte disponíveis nas respetivas comunidades e mantenedores do projeto para desenvolver um plano.

A Microsoft assume a responsabilidade pela criação dos pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter a propriedade completa do processo de compilação, digitalização, assinatura, validação e correção rápida, juntamente com o controlo dos binários nas imagens de contentor. Para obter mais informações, consulte Gestão de vulnerabilidades para AKS e Cobertura de suporte AKS.

Antes de começar

  • Este artigo pressupõe que você tenha um cluster AKS existente. Se você não tiver um cluster, crie um usando a CLI do Azure, o Azure PowerShell ou o portal do Azure.
  • Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o --gpu-driver campo. Executar az --version para localizar a versão. Se precisar de instalar ou atualizar, consulte Install Azure CLI.

Observação

As VMs habilitadas para GPU contêm hardware especializado sujeito a preços mais altos e disponibilidade de região. Para obter mais informações, consulte a ferramenta de preços e a disponibilidade da região.

Limitações

Obtenha as credenciais para o seu cluster

Obtenha as credenciais para o seu cluster AKS usando o az aks get-credentials comando. O comando de exemplo a seguir obtém as credenciais para o cluster myAKSCluster no grupo de myResourceGroup recursos:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Observação

O operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster AKS.

  1. Omitir a instalação automática do driver de GPU criando um pool de nós habilitado com NVIDIA GPU, usando o comando [az aks nodepool add][az-aks-nodepool-add] e definindo o campo da API --gpu-driver para o valor none. Definir este campo de API como none durante a criação do pool de nós ignora a instalação do driver de GPU padrão, veja este exemplo. Os nós que já existem não são alterados. Você pode dimensionar o pool de nós para zero e, em seguida, aumentar novamente para que a alteração entre em vigor.

  2. Siga a documentação da NVIDIA para instalar o operador da GPU.

  3. Agora que você instalou com êxito o operador de GPU, você pode verificar se suas GPUs são escalonáveis e executar uma carga de trabalho de GPU.

Observação

Pode haver considerações adicionais a serem tomadas ao usar o operador de GPU NVIDIA e ao implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577

Próximos passos