주의
이 문서에서는 EOL(서비스 종료) 상태의 Linux 배포판인 CentOS에 대한 내용을 다룹니다. 이에 따라 사용 및 플랜을 고려하세요. 자세한 내용은 CentOS 수명 종료 지침을 참조하세요.
적용 대상: ✔️ Linux VM
중요합니다
포용적 언어 관행에 맞게 이 설명서 전체에서 "블랙리스트"라는 용어를 "차단 목록"으로 바꿉니다. 이러한 변화는 의도하지 않은 부정적인 의미나 인식된 인종 편견을 수반할 수 있는 용어를 피하겠다는 우리의 의지를 반영합니다. 그러나 "blacklist"가 설정된 구문 또는 도구(예: 구성 파일, 명령줄 매개 변수)의 일부인 코드 조각 및 기술 참조에서 원래 용어는 기능 정확도를 유지하기 위해 유지됩니다. 이 사용은 엄격하게 기술적이며 차별적 의도를 의미하지는 않습니다.
NVIDIA GPU가 지원하는 Azure N 시리즈 VM의 GPU 기능을 활용하려면 NVIDIA GPU 드라이버를 설치해야 합니다. NVIDIA GPU 드라이버 확장은 N 시리즈 VM에 적절한 NVIDIA CUDA 또는 GRID 드라이버를 설치합니다. Azure CLI 또는 Azure Resource Manager 템플릿과 같은 도구나 Azure Portal을 사용하여 확장을 설치 또는 관리합니다. 지원되는 배포 및 배포 단계는 NVIDIA GPU 드라이버 확장 설명서를 참조하세요.
NVIDIA GPU 드라이버를 수동으로 설치하려는 경우 이 문서는 지원되는 배포판, 드라이버, 설치 및 확인 단계를 제공합니다. Windows VM에서도 수동 드라이버 설정 정보를 사용할 수 있습니다.
N 시리즈 VM 사양, 스토리지 용량 및 디스크 세부 정보는 GPU Linux VM 크기를 참조하세요.
경고
이 가이드에 설명된 메서드 이외의 메서드를 사용하여 NVIDIA 드라이버를 설치하면 의도한 드라이버 설치가 실패할 수 있습니다. 적절한 기능과 지원을 보장하려면 설치 단계만 따르고 이 설명서에 지정된 드라이버 버전을 사용합니다.
지원되는 배포판 및 버전
NVIDIA CUDA 드라이버
최신 CUDA 드라이버 및 지원되는 운영 체제는 NVIDIA 웹 사이트를 방문하세요. 배포에 필요한 지원되는 최신 CUDA 드라이버를 설치 또는 업그레이드해야 합니다.
참고
원래 NC 시리즈 SKU VM에 지원되는 최신 CUDA 드라이버는 현재 470.82.01입니다. 최신 드라이버 버전은 NC의 K80 카드에서 지원되지 않습니다.
참고
Azure NVads A10 v5 VM은 GRID 17.x 이상의 드라이버 버전만 지원합니다. A10 SKU용 vGPU 드라이버는 그래픽과 컴퓨팅 워크로드를 모두 지원하는 통합 드라이버입니다.
주의
프로세스가 활성화되면 중단되므로 보안 부팅 및 vTPM을 사용하지 않도록 설정해야 합니다.
팁
Linux VM에서 수동 CUDA 드라이버 설치 대신 Azure Data Science Virtual Machine 이미지를 배포할 수 있습니다. Ubuntu 16.04 LTS용 DSVM 버전은 NVIDIA CUDA 드라이버, CUDA 심층 신경망 라이브러리 및 기타 도구를 미리 설치합니다.
NVIDIA GRID 드라이버
참고
vGPU18 은 NCasT4_v3 시리즈에 사용할 수 있습니다.
이제 vGPU18 은 공용 지역에서만 NVadsA10_v5 시리즈에 사용할 수 있습니다. NVadsA10_v5 시리즈에 대한 vGPU18은 아직 Mooncake 및 Fairfax 지역에서 지원 되지 않습니다 . mooncake 및 Fairfax 지역의 NVadsA10_v5 시리즈에 대해 vGPU18이 지원되면 업데이트를 제공합니다.
Microsoft는 가상 워크스테이션 또는 가상 애플리케이션으로 사용되는 NV 및 NVv3 시리즈 VM용 NVIDIA GRID 드라이버 설치 관리자를 재배포합니다. Azure NV VM에서 다음 표에 나열된 운영 체제에만 이러한 GRID 드라이버를 설치합니다. 이 드라이버에는 Azure의 GRID 가상 GPU 소프트웨어에 대한 라이선스가 포함됩니다. NVIDIA vGPU 소프트웨어 라이선스 서버를 설정할 필요가 없습니다.
Azure에서 재배포한 GRID 드라이버는 NC, NCv2, NCv3, ND 및 NDv2 시리즈 VM과 같은 대부분의 비 NV 시리즈 VM에서 작동하지 않지만 NCasT4v3 시리즈에서 작동합니다.
특정 vGPU 및 드라이버 분기 버전에 대한 자세한 내용은 NVIDIA 웹 사이트를 방문하세요.
| 배포 | 드라이버 |
|---|---|
| Ubuntu 20.04 LTS, 22.04 LTS, 24.04 LTS Red Hat Enterprise Linux 8.6, 8.8, 8.9, 8.10, 9.0, 9.2, 9.3, 9.4, 9.5 SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5 Rocky Linux 8.4 |
NVIDIA vGPU 18.5, 드라이버 브랜치 R570 NVIDIA vGPU 18.5, 드라이버 브랜치 R570 |
참고
Azure NVads A10 v5 VM의 경우 최신 드라이버 버전을 사용하는 것이 좋습니다. 최신 NVIDIA 주 드라이버 분기(n)는 이전 주 분기(n-1)와만 호환됩니다. 예를 들어 vGPU 17.x는 vGPU 16.x와만 이전 버전과 호환됩니다. 최신 드라이브 분기가 Azure 호스트에 롤아웃될 때 n-2 이하를 실행하는 모든 VM에서 드라이버 오류가 발생할 수 있습니다.
NVs_v3 VM은 vGPU 16 이하 드라이버 버전만 지원합니다.
GRID Driver 17.3은 현재 NCasT4_v3 일련의 VM만 지원합니다. 이 드라이버를 사용하려면 GRID Driver 17.3을 수동으로 다운로드하여 설치합니다.
GRID 드라이버는 Azure 커널 6.11에서 설치에 문제가 있습니다. 차단을 해제하려면 커널을 버전 6.8로 다운그레이드합니다. 자세한 내용은 알려진 문제를 참조하세요.
이전의 모든 Nvidia GRID 드라이버 링크의 전체 목록은 GitHub 를 방문하세요.
경고
Red Hat 제품에 대한 타사 소프트웨어 설치는 Red Hat 지원 조건에 영향을 줄 수 있습니다. Red Hat 기술 자료 문서를 참조하세요.
N 시리즈 VM에 CUDA 드라이버 설치
N 시리즈 VM의 NVIDIA CUDA 도구 키트에서 CUDA 드라이버를 설치하는 단계는 다음과 같습니다.
경우에 따라 C 및 C++ 개발자는 GPU 가속 애플리케이션을 빌드하기 위해 전체 도구 키트를 설치할 수도 있습니다. 자세한 내용은 CUDA 설치 가이드를 참조하세요.
CUDA 드라이버를 설치하려면 각 VM에 SSH 연결을 설정합니다. 시스템에 CUDA 호환 GPU가 있는지 확인하려면 다음 명령을 실행합니다.
lspci | grep -i NVIDIA
lspci는 InfiniBand NIC 및 GPU(있는 경우)를 포함하여 VM의 PCIe 디바이스를 나열합니다. lspci가 성공적으로 반환되지 않으면 CentOS/RHEL에 LIS를 설치해야 할 수 있습니다.
그런 다음 배포 관련 특정 설치 명령을 실행합니다.
Ubuntu
Ubuntu는 NVIDIA 독점 드라이버를 패키지합니다. 이러한 드라이버는 NVIDIA에서 직접 제공되며 시스템에서 자동으로 관리할 수 있도록 Ubuntu로 간단히 패키지됩니다. 다른 원본에서 드라이버를 다운로드하고 설치하면 시스템이 손상될 수 있습니다. 또한 타사 드라이버를 설치하려면 TrustedLaunch 및 보안 부팅을 사용하도록 설정된 VM에 추가 단계가 필요합니다. 시스템을 부팅하려면 사용자가 새 시스템 소유자 키를 추가해야 합니다. Ubuntu의 드라이버는 Canonical에서 서명했으며 보안 부팅과 함께 작동합니다.
ubuntu-drivers유틸리티를 설치합니다.sudo apt update && sudo apt install -y ubuntu-drivers-common최신 NVIDIA 드라이버 설치
sudo ubuntu-drivers installGPU 드라이버가 설치된 후 VM을 다시 부팅합니다.
sudo rebootNVIDIA에서 CUDA 도구 키트를 다운로드하고 설치합니다.
참고
이 예에서는 Ubuntu 24.04 LTS의 CUDA 패키지 경로를 보여 줍니다. 사용하려는 버전과 관련된 경로를 사용합니다.
각 버전과 관련된 전체 경로는 NVIDIA 다운로드 센터 또는 NVIDIA CUDA 리소스 페이지를 방문하세요.
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo apt install -y ./cuda-keyring_1.1-1_all.deb sudo apt update sudo apt -y install cuda-toolkit-12-5설치에는 몇 분 정도 걸릴 수 있습니다.
설치가 완료된 후 VM 재부팅:
sudo rebootGPU가 올바르게 인식되는지 확인(재부팅 후):
nvidia-smi
NVIDIA 드라이버 업데이트
배포 후 NVIDIA 드라이버를 주기적으로 업데이트하는 것이 좋습니다.
sudo apt update
sudo apt full-upgrade
CentOS 또는 Red Hat Enterprise Linux
커널을 업데이트합니다(권장). 커널을 업데이트하지 않도록 선택하는 경우
kernel-devel및dkms의 버전이 커널에 적합한지 확인하세요.sudo yum install kernel kernel-tools kernel-headers kernel-devel sudo rebootHyper-V 및 Azure용 최신 Linux Integration Services를 설치합니다. lspci의 결과를 확인하여 LIS가 필요한지 알아봅니다. 모든 GPU 디바이스가 예상대로 나열되면 LIS를 설치할 필요가 없습니다.
LIS는 Red Hat Enterprise Linux, CentOS 및 Oracle Linux Red Hat 호환 커널 5.2-5.11, 6.0-6.10 및 7.0-7.7에 적용됩니다. 자세한 내용은 Linux Integration Services 설명서를 참조하세요. 이러한 버전에 LIS가 더 이상 필요하지 않으므로 CentOS/RHEL 7.8(또는 이상 버전)을 사용하려는 경우 이 단계를 건너뜁니다.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo rebootVM에 다시 연결하고 다음 명령을 사용하여 설치를 계속합니다.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo sudo yum clean all sudo yum -y install nvidia-driver-latest-dkms cuda-drivers설치에는 몇 분 정도 걸릴 수 있습니다.
참고
Fedora 및 Nvidia CUDA 리포지토리를 방문하여 사용하려는 CentOS 또는 RHEL 버전에 맞는 패키지를 선택합니다.
예를 들어, CentOS 8 및 RHEL 8에는 다음 단계가 필요합니다.
sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms
sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo
sudo yum install cuda-drivers
필요에 따라 전체 CUDA 도구 키트를 설치하려면 다음을 입력합니다.
sudo yum install cuda참고
vulkan-filesystem과 같은 누락된 패키지와 관련된 오류 메시지가 표시되면 /etc/yum.repos.d/rh-cloud를 편집하고, optional-rpms를 찾고, 사용하도록 설정된 1로 설정해야 할 수 있습니다.
VM 다시 부팅하고 계속해서 설치를 확인합니다.
드라이버 설치 확인
GPU 디바이스 상태를 쿼리하려면 VM에 SSH를 실행하고 드라이버와 함께 설치된 nvidia-smi 명령줄 유틸리티를 실행합니다.
드라이버가 설치된 경우 VM에서 GPU 워크로드를 실행할 때까지 Nvidia SMI는 GPU-Util 을 N/A로 나열합니다.
RDMA 네트워크 연결
동일한 가용성 집합 또는 VM(가상 머신) 확장 집합의 단일 배치 그룹에 배포된 NC24r과 같은 RDMA 지원 N 시리즈 VM에서 RDMA 네트워크 연결을 사용할 수 있습니다. RDMA 네트워크는 Intel MPI 5.x 이상 버전을 사용하여 실행되는 애플리케이션에 대한 MPI(메시지 전달 인터페이스) 트래픽을 지원합니다.
배포
N 시리즈 VM에서 RDMA 연결을 지원하는 Azure Marketplace의 이미지 중 하나에서 RDMA 지원 N 시리즈 VM을 배포합니다.
Ubuntu 16.04 LTS - VM에서 RDMA 드라이버를 구성하고 Intel에 등록하여 Intel MPI를 다운로드합니다.
Dapl, rdmacm, ibverbs 및 mlx4 설치
sudo apt-get update sudo apt-get install libdapl2 libmlx4-1/etc/waagent.conf에서 다음 구성 줄의 주석 처리를 해제하여 RDMA를 사용하도록 설정합니다. 이 파일을 편집하려면 루트 액세스가 필요합니다.
OS.EnableRDMA=y OS.UpdateRdmaDriver=y/etc/security/limits.conf 파일에서 다음 메모리 설정(KB)을 추가하거나 변경합니다. 이 파일을 편집하려면 루트 액세스가 필요합니다. 테스트를 위해 memlock을 unlimited로 설정할 수 있습니다. 예:
<User or group name> hard memlock unlimited<User or group name> hard memlock <memory required for your application in KB> <User or group name> soft memlock <memory required for your application in KB>Intel MPI Library를 설치합니다. Intel에서 라이브러리를 구입하여 다운로드 하거나 평가판을 다운로드합니다.
wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgzIntel MPI 5.x 런타임만 지원됩니다.
설치 단계는 Intel MPI 라이브러리 설치 가이드를 참조하세요.
루트가 아닌 비디버거 프로세스에 대해 ptrace를 사용하도록 설정합니다(가장 최신 버전의 Intel MPI에 필요).
echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
CentOS 기반 7.4 HPC - RDMA 드라이버 및 Intel MPI 5.1이 VM에 설치됩니다.
CentOS 기반 HPC - CentOS-HPC 7.6 이상(SR-IOV을 통해 InfiniBand가 지원되는 SKU의 경우). 이러한 이미지에는 Mellanox OFED 및 MPI 라이브러리가 미리 설치되어 있습니다.
참고
CX3-Pro 카드는 LTS 버전의 Mellanox OFED을 통해서만 지원됩니다. ConnectX3-Pro 카드가 있는 N 시리즈 VM에서 LTS Mellanox OFED 버전(4.9-0.1.7.0)을 사용합니다. 자세한 내용은 Linux 드라이버를 참조하세요.
또한 최신 Azure Marketplace HPC 이미지 중 일부에는 ConnectX3-Pro 카드를 지원하지 않는 Mellanox OFED 5.1 이상이 있습니다. ConnectX3-Pro 카드가 있는 VM에서 사용하기 전에 HPC 이미지에서 Mellanox OFED 버전을 확인합니다.
다음 이미지는 ConnectX3-Pro 카드를 지원하는 최신 CentOS-HPC 이미지입니다.
- OpenLogic:CentOS-HPC:7.6:7.6.2020062900
- OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
- OpenLogic:CentOS-HPC:7.7:7.7.2020062600
- OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
- OpenLogic:CentOS-HPC:8_1:8.1.2020062400
- OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401
NV 또는 NVv3 시리즈 VM에 GRID 드라이버 설치
NVIDIA GRID 드라이버를 NV 또는 NVv3 시리즈 VM에 설치하려면 각 VM에 대한 SSH 연결을 확인하고 Linux 배포에 필요한 단계를 수행합니다.
Ubuntu
lspci명령을 실행합니다. NVIDIA M60 카드가 PCI 디바이스로 표시되는지 확인합니다.업데이트를 설치합니다.
sudo apt-get update sudo apt-get upgrade -y sudo apt-get dist-upgrade -y sudo apt-get install build-essential ubuntu-desktop -y sudo apt-get install linux-azure -yNVIDIA 드라이버와 호환되지 않는 Nouveau 커널 드라이버를 사용하지 않도록 설정합니다. (NV 또는 NVv2 VM에서만 NVIDIA 드라이버를 사용합니다.) 드라이버를 사용하지 않도록 설정하려면 다음 콘텐츠를 사용하여 명명된
/etc/modprobe.dnouveau.conf파일을 만듭니다.blacklist nouveau blacklist lbm-nouveauVM을 다시 부팅하고 다시 연결합니다. X 서버를 종료합니다.
sudo systemctl stop lightdm.serviceGRID 드라이버를 다운로드하여 설치합니다.
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.runnvidia-xconfig 유틸리티를 실행하여 X 구성 파일을 업데이트할지 묻는 메시지가 표시되면 예를 선택합니다.
설치가 완료되면 /etc/nvidia/gridd.conf.template을 위치 /etc/nvidia/의 새 파일 gridd.conf에 복사합니다.
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf다음 줄을
/etc/nvidia/gridd.conf에 추가합니다.IgnoreSP=FALSE EnableUI=FALSE"다음 내용이 있는 경우
/etc/nvidia/gridd.conf에서 제거하세요."FeatureType=0VM 다시 부팅하고 계속해서 설치를 확인합니다.
보안 부팅을 사용하도록 설정된 Ubuntu에 GRID 드라이버 설치
GRID 드라이버 설치 프로세스는 커널 모듈 빌드 및 설치를 건너뛰고 서명된 커널 모듈의 다른 원본을 선택하는 옵션을 제공하지 않으므로, 서명된 커널 모듈을 설치한 후 GRID와 함께 사용하기 위해 Linux VM에서 보안 부팅을 사용하지 않도록 설정해야 합니다.
CentOS 또는 Red Hat Enterprise Linux
커널 및 DKMS를 업데이트합니다(권장). 커널을 업데이트하지 않도록 선택하는 경우
kernel-devel및dkms의 버전이 커널에 적합한지 확인하세요.sudo yum update sudo yum install kernel-devel sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm sudo yum install dkms sudo yum install hyperv-daemonsNVIDIA 드라이버와 호환되지 않는 Nouveau 커널 드라이버를 사용하지 않도록 설정합니다. (NV 또는 NV3 VM에서만 NVIDIA 드라이버를 사용합니다.) 이를 위해
라는 이름으로 파일을 다음 내용으로 만들려면 다음을 수행합니다: blacklist nouveau blacklist lbm-nouveauVM을 다시 부팅하고, 다시 연결하고, Hyper-V 및 Azure용 최신 Linux Integration Services를 설치합니다. lspci의 결과를 확인하여 LIS가 필요한지 알아봅니다. 모든 GPU 디바이스가 예상대로 나열되면 LIS를 설치할 필요가 없습니다.
이러한 버전에 LIS가 더 이상 필요하지 않으므로 CentOS/RHEL 7.8(또는 이상 버전)을 사용하려는 경우 이 단계를 건너뜁니다.
wget https://aka.ms/lis tar xvzf lis cd LISISO sudo ./install.sh sudo rebootVM에 다시 연결하고
lspci명령을 실행합니다. NVIDIA M60 카드가 PCI 디바이스로 표시되는지 확인합니다.GRID 드라이버를 다운로드하여 설치합니다.
wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272 chmod +x NVIDIA-Linux-x86_64-grid.run sudo ./NVIDIA-Linux-x86_64-grid.runnvidia-xconfig 유틸리티를 실행하여 X 구성 파일을 업데이트할지 묻는 메시지가 표시되면 예를 선택합니다.
설치가 완료되면 /etc/nvidia/gridd.conf.template을 위치 /etc/nvidia/의 새 파일 gridd.conf에 복사합니다.
sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf/etc/nvidia/gridd.conf에 다음 두 줄을 추가합니다.IgnoreSP=FALSE EnableUI=FALSE/etc/nvidia/gridd.conf에 그 줄이 있는 경우 해당 줄을 제거하십시오.FeatureType=0VM 다시 부팅하고 계속해서 설치를 확인합니다.
드라이버 설치 확인
GPU 디바이스 상태를 쿼리하려면 VM에 SSH를 실행하고 드라이버와 함께 설치된 nvidia-smi 명령줄 유틸리티를 실행합니다.
드라이버가 설치된 경우 Nvidia SMI는 VM에서 GPU 워크로드를 실행할 때까지 GPU-Util 을 N/A로 나열합니다.
X11 서버
NV 또는 NVv2 VM에 대한 원격 연결을 위해 X11 서버가 필요한 경우 그래픽의 하드웨어 가속을 허용하기 때문에 x11vnc 를 사용하는 것이 좋습니다. M60 디바이스의 BusID는 X11 구성 파일(일반적으로 etc/X11/xorg.conf)에 수동으로 추가해야 합니다. 다음과 유사한 "Device" 섹션을 추가합니다.
Section "Device"
Identifier "Device0"
Driver "nvidia"
VendorName "NVIDIA Corporation"
BoardName "Tesla M60"
BusID "PCI:0@your-BusID:0:0"
EndSection
또한 "Screen" 섹션을 업데이트하여 이 디바이스를 사용합니다.
를 실행하여 10진수 BusID를 찾을 수 있습니다.
nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'
BusID는 VM이 다시 할당되거나 다시 부팅될 때를 변경할 수 있습니다. 따라서 스크립트를 만들어서 VM이 다시 부팅될 때 X11 구성에서 BusID를 업데이트할 수도 있습니다. 예를 들어, 다음과 유사한 콘텐츠의 busidupdate.sh(또는 사용자가 선택한 다른 이름)라는 스크립트를 만듭니다.
#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`
if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
echo "NVIDIA BUSID not changed - nothing to do"
else
echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
sed -e 's|BusID.*|BusID '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi
그런 다음 스크립트가 부팅 시 /etc/rc.d/rc3.d 루트로 호출되도록 업데이트 스크립트에 대한 항목을 만듭니다.
문제 해결
nvidia-smi를 사용하여 지속성 모드를 설정할 수 있으므로 카드를 쿼리해야 할 때 명령 출력이 더 빠릅니다. 지속성 모드를 설정하려면nvidia-smi -pm 1을(를) 실행합니다. VM이 다시 시작되면 모드 설정이 사라집니다. 시작 시 실행되도록 모드 설정을 항상 스크립팅할 수 있습니다.NVIDIA CUDA 드라이버를 최신 버전으로 업데이트하고 RDMA 연결이 더 이상 작동하지 않는 경우 RDMA 드라이버를 다시 설치 하여 해당 연결을 다시 설치합니다.
LIS를 설치하는 동안 특정 CentOS/RHEL OS 버전(또는 커널)이 LIS에 대해 지원되지 않는 경우 "지원되지 않는 커널 버전" 오류가 발생합니다. OS 및 커널 버전과 함께 이 오류를 보고합니다.
GPU의 ECC 오류로 인해 작업이 중단되는 경우(수정 가능하거나 수정할 수 없음) 먼저 GPU가 ECC 오류에 대한 Nvidia의 RMA 기준을 충족하는지 확인합니다. GPU가 RMA에 적합한 경우 서비스 받기에 대한 지원에 문의하세요. 그렇지 않으면 여기에 설명된 대로 VM을 다시 부팅하여 GPU를 다시 연결 합니다. 덜 침습적인 방법(예:
nvidia-smi -rAzure에 배포된 가상화 솔루션)은 작동하지 않습니다.
다음 단계
- 설치된 NVIDIA 드라이버로 Linux VM 이미지를 캡처하려면 Linux 가상 머신을 일반화하고 캡처하는 방법을 참조하세요.