Udostępnij przez


Trenowanie rozproszonego równoległego przetwarzania danych (DDP)

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notesów na potrzeby trenowania rozproszonego równoległego przetwarzania danych (DDP) w przypadku obliczeń bezserwerowych procesora GPU. DDP to najbardziej typowa technika równoległa dla trenowania rozproszonego, w której cały model jest replikowany na każdej karcie GPU, a dane są rozdzielane między GPU.

Kiedy należy używać protokołu DDP

Użyj protokołu DDP, gdy:

  • Model całkowicie mieści się w pamięci pojedynczego procesora graficznego
  • Chcesz skalować trenowanie przez zwiększenie przepływności danych
  • Potrzebujesz najprostszego rozproszonego podejścia szkoleniowego z automatyczną obsługą w większości struktur

W przypadku większych modeli, które nie mieszczą się w pojedynczej pamięci procesora GPU, rozważ zamiast tego fsDP lub DeepSpeed .

Trenowanie prostej wielowarstwowej sieci neuronowej perceptron (MLP) za pomocą PyTorch DDP

W poniższym notesie przedstawiono rozproszone trenowanie prostej wielowarstwowej sieci neuronowej (MLP) przy użyciu modułu DDP PyTorch w usłudze Azure Databricks z bezserwerowymi zasobami procesora GPU.

PyTorch DDP

Pobierz laptopa

Trenowanie modelu OpenAI GPT-OSS 20B na 8xH100 przy użyciu bibliotek TRL i DDP

W tym notesie pokazano, jak używać bezserwerowego GPU API języka Python do nadzorowanego dostrajania (SFT) modelu GPT-OSS 20B od Hugging Face, przy użyciu biblioteki Transformer Reinforcement Learning (TRL). Ten przykład wykorzystuje protokół DDP dla wszystkich 8 procesorów GPU H100 w węźle w celu skalowania globalnego rozmiaru partii.

TRL DDP

Pobierz laptopa

Rozproszone dostrajanie Llama 3.2 3B przy użyciu Unsloth

W tym notesie pokazano, jak używać bezserwerowego interfejsu API GPU w języku Python, aby dostroić model Llama 3.2 3B z biblioteką Unsloth na 8 procesorach GPU A10. Unsloth zapewnia optymalizacje trenowania zoptymalizowane pod kątem zużycia pamięci i używa protokołu DDP wewnętrznie za pośrednictwem Hugging Face Accelerate.

Unsloth DDP

Pobierz laptopa

Rozproszone dostrajanie Olmo3 7B przy użyciu Axolotl

W tym notesie pokazano, jak korzystać z interfejsu API Python Serverless GPU, aby dostroić model Olmo3 7B za pomocą biblioteki Axolotl na 16 procesorach GPU H100. Firma Axolotl została zaprojektowana w celu usprawnienia po trenowaniu i dostrajaniu najnowszych maszyn LLM.

Axolotl DDP

Pobierz laptopa

Rozproszone dostrajanie Llama 3.2 8B przy użyciu Mosaic LLM Foundry

W tym notesie pokazano, jak używać bezserwerowego API Python dla GPU, aby stuningować model Llama 3.2 8B za pomocą biblioteki Mosaic LLM Foundry, korzystając z 16 jednostek GPU A10. Mosaic LLM Foundry zapewnia łatwe w użyciu, wydajne i elastyczne interfejsy API do trenowania dużych modeli językowych.

Notatnik

Pobierz laptopa

Trenowanie rozproszone przy użyciu technologii Ray Train (przetwarzanie obrazów)

W tym notatniku przedstawiono rozproszone trenowanie modelu PyTorch ResNet na zbiorze danych FashionMNIST przy użyciu Ray Train i Ray Data na bezserwerowych klastrach GPU Databricks. Ray Train zapewnia zaawansowaną orkiestrację rozproszonego trenowania i używa DDP jako podstawowej strategii równoległego przetwarzania. W tym przykładzie opisano konfigurowanie magazynu Unity Catalog, konfigurowanie Ray na potrzeby trenowania na wielu węzłach GPU, logowanie i rejestrowanie modeli za pomocą MLflow oraz ocenianie wydajności modelu.

Ray DDP

Pobierz laptopa

Trenowanie systemu rekomendatora z dwiema wieżami przy użyciu PyTorch Lightning

W tym notesie pokazano, jak wytrenować model rekomendacji z dwiema wieżami przy użyciu technologii PyTorch Lightning na bezserwerowych obliczeniach procesora GPU. PyTorch Lightning zapewnia interfejs wysokiego poziomu, który automatycznie obsługuje konfigurację DDP na potrzeby trenowania wielu procesorów GPU. Przykład obejmuje przygotowywanie danych przy użyciu formatu Mosaic Streaming (MDS) i trenowania rozproszonego na układach GPU A10 lub H100.

Zobacz stronę przykłady zaleceń dotyczących uczenia głębokiego, aby zapoznać się z pełnymi notatnikami, w tym:

  • Przygotowywanie danych i konwersja formatu MDS
  • Szkolenie rekomendatora dwóch wież z PyTorch Lightning