다음을 통해 공유


AKS(Azure Kubernetes Service)에서 NVIDIA GPU 연산자 사용

NVIDIA GPU 운영자는 드라이버 설치, Kubernetes용 NVIDIA 디바이스 플러그 인, NVIDIA 컨테이너 런타임 등을 포함하여 GPU를 프로비전하는 데 필요한 모든 NVIDIA 소프트웨어 구성 요소의 관리 및 배포를 자동화합니다. NVIDIA GPU 연산자는 이러한 구성 요소를 처리하므로 AKS 클러스터에 NVIDIA 디바이스 플러그 인을 별도로 설치할 필요가 없습니다. 즉, AKS에서 NVIDIA GPU 연산자를 사용하려면 자동 GPU 드라이버 설치를 건너뛰어야 합니다.

중요합니다

오픈 소스 소프트웨어는 AKS 설명서와 샘플 전반에서 언급되어 있습니다. 배포하는 소프트웨어는 AKS 서비스 수준 계약, 제한된 보증 및 Azure 지원 제외됩니다. AKS와 함께 오픈 소스 기술을 사용하는 경우 각 커뮤니티 및 프로젝트 유지 관리자에서 사용할 수 있는 지원 옵션을 참조하여 계획을 개발합니다.

Microsoft는 AKS에 배포하는 오픈 소스 패키지를 빌드하는 역할을 담당합니다. 해당 책임에는 컨테이너 이미지의 이진 파일에 대한 제어와 함께 빌드, 스캔, 서명, 유효성 검사 및 핫픽스 프로세스의 완전한 소유권이 포함됩니다. 자세한 내용은 AKS의 취약성 관리AKS 지원 범위를 참조하세요.

시작하기 전 주의 사항:

  • 이 문서에서는 기존 AKS 클러스터가 있다고 가정합니다. 클러스터가 없으면 Azure CLI, Azure PowerShell 또는 Azure Portal을 사용하여 클러스터를 만듭니다.
  • 필드를 설정 --gpu-driver 하려면 Azure CLI 버전 2.72.2 이상이 설치되어 있어야 합니다. az --version을 실행하여 버전을 찾습니다. 설치 또는 업그레이드해야 하는 경우 Azure CLI 설치를 참조하세요.

비고

GPU 지원 VM에는 더 높은 가격 및 지역 가용성에 맞는 특별한 하드웨어가 포함되어 있습니다. 자세한 내용은 가격 책정 도구 및 지역 가용성을 참조하세요.

제한점

클러스터의 자격 증명 가져오기

az aks get-credentials 명령을 사용하여 AKS 클러스터의 자격 증명을 가져옵니다. 다음 예제 명령은 myAKSCluster 리소스 그룹 내의 클러스터 myResourceGroup에 대한 자격 증명을 가져옵니다.

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

비고

NVIDIA GPU 연산자는 동일한 AKS 클러스터의 여러 OS 버전과 호환되지 않습니다.

  1. 자동 GPU 드라이버 설치를 건너뛰려면 [az aks nodepool addaz-aks-nodepool-add] 명령어를 사용하여 NVIDIA GPU를 지원하는 노드 풀을 만들고, API 필드를 --gpu-drivernone으로 설정합니다. 노드 풀 생성 시 이 API 필드를 none로 설정하면 기본 GPU 드라이버 설치가 건너뛰어집니다. 이 예제를 참조하세요. 기존 노드는 변경되지 않습니다. 노드 풀을 0으로 스케일링한 다음 백업하여 변경 내용이 적용되도록 할 수 있습니다.

  2. NVIDIA 설명서에 따라 GPU Operator를 설치합니다.

  3. 이제 GPU Operator를 성공적으로 설치했으므로 GPU가 예약 가능한지 확인하고 GPU 워크로드를 실행할 수 있습니다.

비고

NVIDIA GPU 연산자를 사용하고 SPOT 인스턴스에 배포할 때 고려해야 할 추가 고려 사항이 있을 수 있습니다. https://github.com/NVIDIA/gpu-operator/issues/577 를 참조하세요.

다음 단계