Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Ta funkcja jest dostępna w wersji beta. Administratorzy obszaru roboczego mogą kontrolować dostęp do tej funkcji ze strony Podglądy . Zobacz Zarządzanie wersjami zapoznawczami usługi Azure Databricks.
Ta strona zawiera przykłady notatników do trenowania w pełni podzielonego Data Parallel (FSDP) w bezserwerowym przetwarzaniu GPU. Model FSDP dzieli parametry, gradienty i stany optymalizatora pomiędzy procesory GPU, umożliwiając trenowanie bardzo dużych modeli, które nie mieszczą się w pamięci pojedynczego procesora GPU.
Kiedy używać protokołu FSDP
Użyj protokołu FSDP, gdy:
- Model jest za duży, aby zmieścić się w pamięci jednej karty graficznej.
- Musisz wytrenować modele w zakresie parametrów od 20B do 120B+
- Potrzebujesz większej wydajności pamięci niż zapewnia protokół DDP
W przypadku mniejszych modeli, które mieszczą się w pojedynczej pamięci procesora GPU, rozważ użycie protokołu DDP dla uproszczenia. Aby uzyskać zaawansowane funkcje optymalizacji pamięci, zobacz DeepSpeed.
Trenowanie modelu Transformer przy użyciu 10 milionów parametrów przy użyciu protokołu FSDP2
W poniższym notatniku przedstawiono rozproszone trenowanie modelu Transformer o 10 milionach parametrów przy użyciu biblioteki FSDP2.
PyTorch FSDP
Trenowanie modelu OpenAI GPT-OSS 120B przy użyciu TRL i FSDP
W tym notesie pokazano, jak uruchamiać nadzorowane dostrajanie (SFT) na modelu GPT-OSS 120B przy użyciu fsDP2 i biblioteki TRL (Transformer Reinforcement Learning ). W tym przykładzie FSDP jest używany w celu zmniejszenia zużycia pamięci, a DDP do skalowania globalnego rozmiaru partii na 8 procesorach GPU H100.