다음을 통해 공유


DDP(분산 데이터 병렬) 교육

중요합니다

이 기능은 베타 버전으로 제공됩니다. 작업 영역 관리자는 미리 보기 페이지에서 이 기능에 대한 액세스를 제어할 수 있습니다. Azure Databricks 미리 보기 관리를 참조하세요.

이 페이지에는 서버리스 GPU 컴퓨팅에서 DDP(Distributed Data Parallel) 교육을 사용하는 Notebook 예제가 있습니다. DDP는 분산 학습을 위한 가장 일반적인 병렬 처리 기술로, 각 GPU에서 전체 모델이 복제되고 데이터 일괄 처리가 GPU 간에 분할됩니다.

DDP를 사용하는 경우

다음과 같은 경우 DDP를 사용합니다.

  • 모델은 단일 GPU 메모리에 완벽하게 맞습니다.
  • 데이터 처리량을 늘려 학습 크기를 조정하려고 합니다.
  • 대부분의 프레임워크에서 자동 지원을 사용하는 가장 간단한 분산 학습 방법이 필요합니다.

단일 GPU 메모리에 맞지 않는 더 큰 모델의 경우 FSDP 또는 DeepSpeed 를 대신 고려합니다.

PyTorch DDP를 사용하여 간단한 MLP(다중 계층 퍼셉트론) 신경망 학습

다음 Notebook에서는 서버리스 GPU 리소스가 있는 Azure Databricks의 PyTorch DDP 모듈을 사용하여 간단한 MLP(다중 계층 퍼셉트론) 신경망의 분산 학습을 보여 줍니다.

PyTorch DDP

노트북 받기

TRL 및 DDP를 사용하여 8xH100에서 OpenAI GPT-OSS 20B 모델 학습

이 노트북에서는 서버리스 GPU Python API를 사용하여 TRL(변환기 강화 학습) 라이브러리를 통해 Hugging Face에서 GPT-OSS 20B 모델에 대해 감독된 미세 조정(SFT)을 수행하는 방법을 보여 줍니다. 이 예제에서는 노드의 모든 8개 H100 GPU에서 DDP를 활용하여 글로벌 일괄 처리 크기를 조정합니다.

TRL DDP

노트북 받기

Unsloth를 사용하여 Llama 3.2 3B의 분산 미세 조정

이 Notebook에서는 Serverless GPU Python API를 사용하여 Unsloth 라이브러리를 통해 Llama 3.2 3B 모델을 8개의 A10 GPU에서 미세 조정하는 방법을 보여 줍니다. Unsloth는 메모리 효율적인 학습 최적화를 제공하고 Hugging Face Accelerate를 통해 DDP를 사용합니다.

DDP 해제

노트북 받기

Axolotl을 사용하여 Olmo3 7B를 분산 방식으로 미세 조정

이 Notebook에서는 서버리스 GPU Python API를 사용하여 Axolotl 라이브러리를 통해 16개의 H100 GPU에서 Olmo3 7B 모델을 미세 조정하는 방법을 보여줍니다. Axolotl은 최신 LLM에 대한 학습 후 및 미세 조정을 간소화하도록 설계되었습니다.

Axolotl DDP

노트북 받기

Mosaic LLM Foundry를 사용하여 Llama 3.2 8B의 분산 미세 조정

이 Notebook에서는 서버리스 GPU Python API 를 사용하여 16개의 A10 GPU에서 Mosaic LLM Foundry 라이브러리를 사용하여 Llama 3.2 8B 모델을 미세 조정하는 방법을 보여 줍니다. Mosaic LLM Foundry는 사용하기 쉽고 효율적이며 유연한 API를 제공하여 대규모 언어 모델을 학습합니다.

Notebook

노트북 받기

Ray Train을 사용한 분산 학습(컴퓨터 비전)

이 Notebook은 Databricks 서버리스 GPU 클러스터에서 Ray Train 및 Ray Data를 사용하여 FashionMNIST 데이터 세트에서 PyTorch ResNet 모델의 분산 학습을 보여 줍니다. Ray Train은 고급 분산 학습 오케스트레이션을 제공하고 DDP를 기본 병렬 처리 전략으로 사용합니다. 이 예제에서는 Unity 카탈로그 스토리지 설정, 다중 노드 GPU 학습을 위한 Ray 구성, MLflow를 사용하여 모델 로깅 및 등록, 모델 성능 평가에 대해 설명합니다.

Ray DDP

노트북 받기

PyTorch Lightning을 사용하여 2 타워 추천 시스템 교육

이 Notebook은 서버리스 GPU 컴퓨팅에서 PyTorch Lightning을 사용하여 2타워 권장 모델을 학습하는 방법을 보여 줍니다. PyTorch Lightning은 다중 GPU 학습에 대한 DDP 구성을 자동으로 처리하는 고급 인터페이스를 제공합니다. 이 예제에는 Mosaic Streaming(MDS) 형식을 사용한 데이터 준비와 A10 또는 H100 GPU의 분산 학습이 포함됩니다.

딥 러닝 추천 예제 페이지에서 완전한 노트북을 찾아보세요, 다음을 포함합니다:

  • 데이터 준비 및 MDS 형식 변환
  • PyTorch 번개를 사용하여 2 타워 추천 교육