Udostępnij przez


Trenowanie pełnego równoległego przetwarzania danych podzielonych na fragmenty (FSDP)

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.

Ta strona zawiera przykłady notatników do trenowania w pełni podzielonego Data Parallel (FSDP) w bezserwerowym przetwarzaniu GPU. Model FSDP dzieli parametry, gradienty i stany optymalizatora pomiędzy procesory GPU, umożliwiając trenowanie bardzo dużych modeli, które nie mieszczą się w pamięci pojedynczego procesora GPU.

Kiedy używać protokołu FSDP

Użyj protokołu FSDP, gdy:

  • Model jest za duży, aby zmieścić się w pamięci jednej karty graficznej.
  • Musisz wytrenować modele w zakresie parametrów od 20B do 120B+
  • Potrzebujesz większej wydajności pamięci niż zapewnia protokół DDP

W przypadku mniejszych modeli, które mieszczą się w pojedynczej pamięci procesora GPU, rozważ użycie protokołu DDP dla uproszczenia. Aby uzyskać zaawansowane funkcje optymalizacji pamięci, zobacz DeepSpeed.

Trenowanie modelu Transformer przy użyciu 10 milionów parametrów przy użyciu protokołu FSDP2

W poniższym notatniku przedstawiono rozproszone trenowanie modelu Transformer o 10 milionach parametrów przy użyciu biblioteki FSDP2.

PyTorch FSDP

Pobierz laptopa

Trenowanie modelu OpenAI GPT-OSS 120B przy użyciu TRL i FSDP

W tym notesie pokazano, jak uruchamiać nadzorowane dostrajanie (SFT) na modelu GPT-OSS 120B przy użyciu fsDP2 i biblioteki TRL (Transformer Reinforcement Learning ). W tym przykładzie FSDP jest używany w celu zmniejszenia zużycia pamięci, a DDP do skalowania globalnego rozmiaru partii na 8 procesorach GPU H100.

TRL FSDP

Pobierz laptopa