Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta extensão instala drivers de GPU NVIDIA em máquinas virtuais (VMs) Linux série N. Dependendo da família VM, a extensão instala drivers CUDA ou GRID. Ao instalar drivers NVIDIA usando esta extensão, você está aceitando e concordando com os termos do Contrato de Licença de Usuário Final da NVIDIA. Durante o processo de instalação, a VM pode reinicializar para concluir a configuração do driver.
Instruções sobre a instalação manual dos drivers e as versões atuais suportadas estão disponíveis. Uma extensão também está disponível para instalar drivers de GPU NVIDIA em VMs da série N do Windows.
Nota
Para VMs da série NVadsA10v5, esta extensão continuará a usar a v17.x até terminarmos o lançamento da v18.x nas clouds soberanas em janeiro de 2026.
Nota
Com o Arranque Seguro ativado, todos os componentes de inicialização do SO (carregador de inicialização, kernel, controladores do kernel) devem ser assinados por editores fidedignos (chave fidedigna do sistema). A Inicialização Segura não é suportada usando extensões Windows ou Linux. Para obter mais informações sobre como instalar manualmente drivers de GPU com a Inicialização Segura habilitada, consulte Configuração do driver de GPU da série N do Azure para Linux.
Nota
As extensões de driver da GPU não atualizam automaticamente o driver após a instalação da extensão. Se precisar atualizar para uma versão mais recente do driver, deve baixar e instalar manualmente o driver ou remover e adicionar novamente a extensão.
Nota
Experimenta o VM assist para diagnósticos mais rápidos. Recomendamos que execute o VM assist para Windows ou o VM assist para Linux. Essas ferramentas de diagnóstico baseadas em script ajudam você a identificar problemas comuns que afetam o Agente Convidado da VM do Azure e a integridade geral da VM.
Se estiver a experienciar problemas de desempenho com máquinas virtuais, antes de contactar o suporte, execute estas ferramentas.
Pré-requisitos
Sistema operativo
Esta extensão suporta as seguintes distros do SO, dependendo do suporte do driver para a versão específica do SO:
| Motorista | Linux: Ubuntu | Linux: Red Hat Enterprise Linux |
|---|---|---|
| CUDA | 20,04 LTS | 7,9 |
| REDE | 22,04 LTS 24,04 LTS |
8.2 |
Nota
Os drivers CUDA suportados mais recentes para VMs da série NC são atualmente 470.82.01. Versões posteriores do driver não são suportadas nas placas K80 no NC. ** Enquanto a extensão está a ser atualizada com esta descontinuação do suporte para NC, instale manualmente os drivers CUDA para placas K80 na série NC.
Importante
Este documento faz referência a uma versão estável do Linux que está aproximando-se do Fim de Vida Útil ou já o atingiu. Por favor, considere atualizar para uma versão mais atual.
conectividade Internet
A Extensão do Microsoft Azure para Drivers de GPU NVIDIA requer que a VM de destino esteja conectada à Internet e tenha acesso.
Esquema de extensão
O JSON a seguir mostra o esquema para a extensão:
{
"name": "<myExtensionName>",
"type": "extensions",
"apiVersion": "2015-06-15",
"location": "<location>",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.6",
"autoUpgradeMinorVersion": true,
"settings": {
}
}
}
Propriedades
| Nome | Valor/Exemplo | Tipo de dados |
|---|---|---|
| Versão da API | 2015-06-15 | data |
| editor | Microsoft.HpcCompute | cadeia (de caracteres) |
| tipo | NvidiaGpuDriverLinux | cadeia (de caracteres) |
| typeHandlerVersion | 1.6 | Int |
Configurações
Todas as configurações são opcionais. O comportamento padrão é não atualizar o kernel se não for necessário para a instalação do driver e instalar o driver suportado mais recente e o kit de ferramentas CUDA (conforme aplicável).
| Nome | Descrição | Valor padrão | Valores válidos | Tipo de dados |
|---|---|---|---|---|
| atualizarOS | Atualize o kernel mesmo que não seja necessário para a instalação do driver. | falso | verdadeiro, falso | Booleano |
| versão do driver | NV: Versão do driver GRID. NC/ND: Versão do kit de ferramentas CUDA. Os drivers mais recentes para o CUDA escolhido são instalados automaticamente. |
mais recente | Lista de versões de driver suportadas | cadeia (de caracteres) |
| instalarCUDA | Instale o kit de ferramentas CUDA. Apenas relevante para VMs da série NC/ND. | verdadeiro | verdadeiro, falso | Booleano |
Implementação
portal do Azure
Você pode implantar extensões de VM do Azure NVIDIA no portal do Azure.
Num browser, aceda ao Portal do Azure.
Vá para a máquina virtual na qual você deseja instalar o driver.
No menu à esquerda, selecione Extensões.
Selecione Adicionar.
Desloque-se para localizar e selecionar NVIDIA GPU Driver Extension e, em seguida, selecione Next.
Selecione Rever + criar e selecione Criar. Aguarde alguns minutos para que o driver seja disponibilizado.
Verifique se a extensão foi adicionada à lista de extensões instaladas.
Modelo Azure Resource Manager
Você pode usar modelos do Azure Resource Manager para implantar extensões de VM do Azure. Os modelos são ideais quando você implanta uma ou mais máquinas virtuais que exigem configuração pós-implantação.
A configuração JSON para uma extensão de máquina virtual pode ser aninhada dentro do recurso de máquina virtual ou colocada no nível raiz ou superior de um modelo JSON do Gerenciador de Recursos. O posicionamento da configuração JSON afeta o valor do nome e do tipo de recurso. Para obter mais informações, consulte Definir nome e tipo para recursos filho.
O exemplo a seguir pressupõe que a extensão esteja aninhada dentro do recurso de máquina virtual. Quando o recurso de extensão está aninhado, o JSON é colocado no objeto "resources": [] da máquina virtual.
{
"name": "myExtensionName",
"type": "extensions",
"location": "[resourceGroup().location]",
"apiVersion": "2015-06-15",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', myVM)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.6",
"autoUpgradeMinorVersion": true,
"settings": {
}
}
}
PowerShell
Set-AzVMExtension
-ResourceGroupName "myResourceGroup" `
-VMName "myVM" `
-Location "southcentralus" `
-Publisher "Microsoft.HpcCompute" `
-ExtensionName "NvidiaGpuDriverLinux" `
-ExtensionType "NvidiaGpuDriverLinux" `
-TypeHandlerVersion 1.6 `
-SettingString '{ `
}'
CLI do Azure
O exemplo a seguir espelha os exemplos anteriores do Resource Manager e do PowerShell:
az vm extension set \
--resource-group myResourceGroup \
--vm-name myVM \
--name NvidiaGpuDriverLinux \
--publisher Microsoft.HpcCompute \
--version 1.6
O exemplo a seguir também adiciona duas configurações personalizadas opcionais como um exemplo para a instalação de driver não padrão. Especificamente, ele atualiza o kernel do sistema operacional para o mais recente e instala um driver de versão específico do kit de ferramentas CUDA. Novamente, observe que o --settings é opcional e predefinido. Atualizar o kernel pode aumentar os tempos de instalação da extensão. Além disso, escolher uma versão específica (mais antiga) do kit de ferramentas CUDA pode nem sempre ser compatível com kernels mais recentes.
az vm extension set \
--resource-group myResourceGroup \
--vm-name myVM \
--name NvidiaGpuDriverLinux \
--publisher Microsoft.HpcCompute \
--version 1.6 \
--settings '{ \
"updateOS": true, \
"driverVersion": "10.0.130" \
}'
Solução de problemas e suporte
Resolver problemas
Você pode recuperar dados sobre o estado das implantações de extensão no portal do Azure e usando o Azure PowerShell e a CLI do Azure. Para ver o estado de implantação das extensões de uma determinada VM, execute o seguinte comando:
Get-AzVMExtension -ResourceGroupName myResourceGroup -VMName myVM -Name myExtensionName
az vm extension list --resource-group myResourceGroup --vm-name myVM -o table
A saída de execução da extensão é registrada no arquivo a seguir. Consulte este ficheiro para controlar o estado de qualquer instalação de longa duração e para resolver quaisquer falhas.
/var/log/azure/nvidia-vmext-status
Códigos de saída
| Código de saída | Significado | Ação possível |
|---|---|---|
| 0 | Operação bem-sucedida | |
| 1 | Uso incorreto da extensão | Verifique o log de saída de execução. |
| 10 | Linux Integration Services para Hyper-V e Azure não disponível ou instalado | Verifique a saída do lspci. |
| 11 | GPU NVIDIA não encontrada neste tamanho de VM | Use um tamanho de VM e sistema operacional suportados. |
| 12 | Oferta de imagem não suportada | |
| 13 | Tamanho da VM não suportado | Use uma VM da série N para implantar. |
| 14 | Operação sem sucesso | Verifique o log de saída de execução. |
Problemas conhecidos
- O driver GRID 16.x e 17.x estão tendo problemas de instalação no kernel 6.11 do Azure. A Nvidia está trabalhando para resolver esse problema, enquanto isso, faça o downgrade do kernel do Azure para 6.8 seguindo estas etapas. Tente reinstalar os drivers manualmente ou usando uma extensão após o downgrade do kernel para 6.8.
// Get the installed kernel. If kernel 6.11 is installed, downgrade it to 6.8.
uname -a
// Install kernel 6.8. Note that kernel 6.11 is not supported.
$ sudo apt install linux-image-6.8.0-1015-azure
// Get the list of installed kernels.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'
// Uninstall any 6.11 kernels.
sudo apt purge linux-headers-6.11.0-1013-azure linux-image-6.11.0-1013-azure linux-modules-6.11.0-1013-azure
// Run the following command to ensure only 6.8 images, headers, and modules are installed and no other versions are present.
dpkg --list | egrep -i --color 'linux-image|linux-headers|linux-modules' | awk '{ print $2 }'
// Results from the previous command:
linux-headers-6.8.0-1015-azure
linux-image-6.8.0-1015-azure
linux-modules-6.8.0-1015-azure
// Open the grub settings and modify the GRUB_DEFAULT="0" to GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure".
$ sudo vim /etc/default/grub
// The grub file will look like the following:
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.8.0-1015-azure"
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=0
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX=""
///////////////////
// Update GRUB and reboot.
$ sudo update-grub && sudo update-grub2
$ sudo reboot
// Reinstall the driver after reboot.
-
NvidiaGpuDriverLinuxatualmente instala os drivers GRID mais recentes17.5, que estão a apresentar problemas com o CUDA na série A10. A NVIDIA está trabalhando para resolver esse problema, enquanto isso, use o driver16.5GRID passando uma configuração de tempo de execução para a extensão.
az vm extension set --resource-group <rg-name> --vm-name <vm-name> --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
"name": "NvidiaGpuDriverLinux",
"type": "extensions",
"apiVersion": "2015-06-15",
"location": "<location>",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.11",
"autoUpgradeMinorVersion": true,
"settings": {
"driverVersion": "535.161"
}
}
}
- A versão
17.xdo driver GRID é incompatível com NVv3 (NVIDIA Tesla M60). São suportados os controladores GRID até à versão16.5.NvidiaGpuDriverLinuxinstala os drivers mais recentes que são incompatíveis no NVv3 SKU. Em vez disso, use as seguintes configurações de tempo de execução para forçar a extensão a instalar uma versão mais antiga do driver. Para obter mais informações sobre versões de driver, consulte Recursos de GPU NVIDIA.
az vm extension set --resource-group <rg-name> --vm-name <vm-name> --name NvidiaGpuDriverLinux --publisher Microsoft.HpcCompute --settings "{'driverVersion':'535.161'}"
{
"name": "NvidiaGpuDriverLinux",
"type": "extensions",
"apiVersion": "2015-06-15",
"location": "<location>",
"dependsOn": [
"[concat('Microsoft.Compute/virtualMachines/', <myVM>)]"
],
"properties": {
"publisher": "Microsoft.HpcCompute",
"type": "NvidiaGpuDriverLinux",
"typeHandlerVersion": "1.11",
"autoUpgradeMinorVersion": true,
"settings": {
"driverVersion": "535.161"
}
}
}
- O driver Linux Grid 17.5 tem um bug que afeta as cargas de trabalho relacionadas com CUDA. A identificação de erro normalmente envolve dispositivos CUDA indisponíveis. Enquanto o Azure está trabalhando para resolver esse problema, use o driver GRID 16.5 para continuar executando sua carga de trabalho.
Suporte
Se precisar de mais ajuda em qualquer ponto deste artigo, entre em contato com os especialistas do Azure nos fóruns MSDN Azure e Stack Overflow. Como alternativa, você pode registrar um incidente de suporte do Azure. Vá para Suporte do Azure e selecione Obter suporte. Para obter informações sobre como usar o suporte do Azure, leia as Perguntas frequentes de suporte do Azure.
Próximos passos
- Para obter mais informações sobre extensões, consulte Extensões de máquina virtual e recursos para Linux.
- Para obter mais informações sobre VMs da série N, consulte Tamanhos de máquina virtual otimizados para GPU.