다음을 통해 공유


AKS(Azure Kubernetes Service)에 Ray 클러스터 배포 개요

이 문서에서는 KubeRay 연산자를 사용하여 AKS(Azure Kubernetes Service)에 Ray 클러스터를 배포하는 방법을 알아봅니다. 또한 Ray 클러스터를 사용하여 간단한 기계 학습 모델을 학습시키고 결과를 Ray 대시보드에 표시하는 방법을 알아봅니다.

Important

오픈 소스 소프트웨어는 AKS 설명서와 샘플 전반에서 언급되어 있습니다. 배포하는 소프트웨어는 AKS 서비스 수준 계약, 제한된 보증 및 Azure 지원 제외됩니다. AKS와 함께 오픈 소스 기술을 사용하는 경우 각 커뮤니티 및 프로젝트 유지 관리자에서 사용할 수 있는 지원 옵션을 참조하여 계획을 개발합니다.

Microsoft는 AKS에 배포하는 오픈 소스 패키지를 빌드하는 역할을 담당합니다. 해당 책임에는 컨테이너 이미지의 이진 파일에 대한 제어와 함께 빌드, 스캔, 서명, 유효성 검사 및 핫픽스 프로세스의 완전한 소유권이 포함됩니다. 자세한 내용은 AKS에 대한 취약성 관리AKS 지원 적용 범위를 참조하세요.

Ray란 무엇인가요?

Ray 는 UC Berkeley의 RISE Lab에서 개발된 오픈 소스 프로젝트로, AI 및 Python 애플리케이션의 크기를 조정하기 위한 통합 프레임워크를 제공합니다. 핵심 분산 런타임 및 기계 학습 워크로드를 가속화하도록 설계된 AI 라이브러리 집합으로 구성됩니다.

Ray는 컴퓨팅 집약적 Python 작업을 대규모로 실행하는 프로세스를 간소화하여 애플리케이션의 크기를 원활하게 조정할 수 있도록 합니다. 프레임워크는 분산 학습, 하이퍼 매개 변수 튜닝, 보충 학습 및 프로덕션 모델 서비스를 비롯한 다양한 기계 학습 작업을 지원합니다.

자세한 내용은 Ray GitHub 리포지토리를 참조 하세요.

KubeRay란?

KubeRay 는 Kubernetes에서 Ray 클러스터를 배포하고 관리하기 위한 오픈 소스 Kubernetes 운영자입니다. KubeRay는 Ray 클러스터의 배포, 크기 조정 및 모니터링을 자동화합니다. Kubernetes 사용자 지정 리소스를 사용하여 Ray 클러스터를 정의하는 선언적 방법을 제공하므로 다른 Kubernetes 리소스와 함께 Ray 클러스터를 쉽게 관리할 수 있습니다.

자세한 내용은 KubeRay GitHub 리포지토리를 참조 하세요.

광선 배포 프로세스

배포 프로세스는 다음 단계로 구성됩니다.

  1. Terraform을 사용하여 로컬 계획 파일을 만들어 Azure 리소스 그룹, 전용 시스템 노드 풀 및 3개의 노드가 있는 Ray용 워크로드 노드 풀로 구성된 인프라 필수 AKS 인프라에 대한 원하는 상태를 정의합니다.
  2. Azure에 로컬 Terraform 계획을 배포합니다.
  3. Terraform 배포에서 출력을 검색하고 새로 배포된 AKS 클러스터에 대한 Kubernetes 자격 증명을 가져옵니다.
  4. Helm Ray 리포지토리를 설치하고 Helm을 사용하여 AKS 클러스터에 KubeRay를 배포합니다.
  5. Ray GitHub 샘플 리포지토리에서 Ray Job YAML 매니페스트를 다운로드하고 실행하여 CNN(Convolutional Neural Networks)을 사용하여 MNIST 데이터 세트를 사용하여 이미지 분류를 수행합니다.
  6. Ray 작업에서 로그를 출력하여 Ray가 수행하는 기계 학습 프로세스에 대한 인사이트를 얻습니다.

다음 단계

참가자

Microsoft는 이 문서를 유지 관리합니다. 다음 기여자는 원래 그것을 썼다:

  • Russell de Pina | 수석 TPM
  • Ken Kilty | 수석 TPM
  • Erin Schaffer | 콘텐츠 개발자 2
  • Adrian Joian | 수석 고객 엔지니어
  • Ryan Graham | 수석 기술 전문가