Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O NVIDIA GPU Operator automatiza o gerenciamento e a implantação de todos os componentes de software NVIDIA necessários para provisionar a GPU, incluindo a instalação do driver, o plug-in do dispositivo NVIDIA para Kubernetes, o tempo de execução do contêiner NVIDIA e muito mais. Como o operador de GPU NVIDIA lida com esses componentes, não é necessário instalar separadamente o plug-in de dispositivo NVIDIA em seu cluster AKS. Isso também significa que a instalação automática do driver de GPU deve ser ignorada para usar o operador de GPU NVIDIA no AKS.
Importante
O software de código aberto é mencionado em toda a documentação e amostras do AKS. O software que você implanta é excluído dos contratos de nível de serviço do AKS, da garantia limitada e do suporte do Azure. Ao usar a tecnologia de código aberto ao lado do AKS, consulte as opções de suporte disponíveis nas respetivas comunidades e mantenedores do projeto para desenvolver um plano.
A Microsoft assume a responsabilidade pela criação dos pacotes de código aberto que implantamos no AKS. Essa responsabilidade inclui ter a propriedade completa do processo de compilação, digitalização, assinatura, validação e correção rápida, juntamente com o controlo dos binários nas imagens de contentor. Para obter mais informações, consulte Gestão de vulnerabilidades para AKS e Cobertura de suporte AKS.
Antes de começar
- Este artigo pressupõe que você tenha um cluster AKS existente. Se você não tiver um cluster, crie um usando a CLI do Azure, o Azure PowerShell ou o portal do Azure.
- Você precisa da CLI do Azure versão 2.72.2 ou posterior instalada para definir o
--gpu-drivercampo. Executaraz --versionpara localizar a versão. Se precisar de instalar ou atualizar, consulte Install Azure CLI.
Observação
As VMs habilitadas para GPU contêm hardware especializado sujeito a preços mais altos e disponibilidade de região. Para obter mais informações, consulte a ferramenta de preços e a disponibilidade da região.
Limitações
- O NVIDIA GPU Operator não é suportado para as seguintes opções de SO: versões do Windows Server, Flatcar Container Linux para AKS (pré-visualização) e Azure Linux com OS Guard para AKS (pré-visualização).
Obtenha as credenciais para o seu cluster
Obtenha as credenciais para o seu cluster AKS usando o az aks get-credentials comando. O comando de exemplo a seguir obtém as credenciais para o cluster myAKSCluster no grupo de myResourceGroup recursos:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Observação
O operador de GPU NVIDIA não é compatível com várias versões do sistema operacional no mesmo cluster AKS.
Omitir a instalação automática do driver de GPU criando um pool de nós habilitado com NVIDIA GPU, usando o comando [
az aks nodepool add][az-aks-nodepool-add] e definindo o campo da API--gpu-driverpara o valornone. Definir este campo de API comononedurante a criação do pool de nós ignora a instalação do driver de GPU padrão, veja este exemplo. Os nós que já existem não são alterados. Você pode dimensionar o pool de nós para zero e, em seguida, aumentar novamente para que a alteração entre em vigor.Siga a documentação da NVIDIA para instalar o operador da GPU.
Agora que você instalou com êxito o operador de GPU, você pode verificar se suas GPUs são escalonáveis e executar uma carga de trabalho de GPU.
Observação
Pode haver considerações adicionais a serem tomadas ao usar o operador de GPU NVIDIA e ao implantar em instâncias SPOT. Consulte https://github.com/NVIDIA/gpu-operator/issues/577
Próximos passos
- Monitore as métricas da GPU NVIDIA usando o Azure Managed Prometheus e o Azure Managed Grafana.
- Saiba mais sobre clusters Ray no AKS.