Udostępnij przez


Trenowanie rozproszone przy użyciu technologii DeepSpeed

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notatników do trenowania rozproszonego przy użyciu DeepSpeed na obliczeniach bezserwerowych GPU. Technologia DeepSpeed zapewnia zaawansowane techniki optymalizacji pamięci dzięki etapom zeRO (Zero Redundancy Optimizer), umożliwiając wydajne trenowanie dużych modeli.

Kiedy używać rozwiązania DeepSpeed

Użyj funkcji DeepSpeed, gdy:

  • Potrzebna jest zaawansowana optymalizacja pamięci poza standardową usługą FSDP
  • Potrzebujesz szczegółowej kontroli nad fragmentowaniem stanu optymalizatora (ZeRO Stage 1, 2 lub 3)
  • Potrzebujesz dodatkowych funkcji, takich jak fuzja akumulacji gradientów lub odciążanie procesora
  • Pracujesz z dużymi modelami językowymi (1 do 100+ miliardów parametrów)

W przypadku prostszych przypadków użycia rozważ użycie protokołu DDP. Aby uzyskać informacje na temat trenowania dużych modeli natywnych dla platformy PyTorch, zobacz FSDP.

Nadzorowane dostrajanie przy użyciu TRL i DeepSpeed ZeRO Stage 3

W tym notatniku pokazano, jak używać interfejsu API Serverless w Pythonie dla GPU do uruchamiania nadzorowanego dostrajania (SFT) przy użyciu biblioteki Transformer Reinforcement Learning (TRL) z optymalizacją DeepSpeed ZeRO Stage 3 na jednoprocesorowym węźle GPU A10. Takie podejście można rozszerzyć na konfiguracje obejmujące wiele węzłów.

TRL DeepSpeed

Pobierz laptopa