Freigeben über


Verteiltes Training mit Multi-GPU- und Multi-Node-Technologie

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für multiknoten- und multi-GPU verteilte Schulungen mit Serverless GPU Compute. In diesen Beispielen wird veranschaulicht, wie Sie Schulungen auf mehrere GPUs und Knoten skalieren, um die Leistung zu verbessern.

Wählen Sie Ihre Parallelitätstechnik aus.

Wenn Sie Ihre Modellschulung auf mehrere GPUs skalieren, hängt die Auswahl der richtigen Parallelitätstechnik von der Modellgröße, verfügbaren GPU-Speicher und Leistungsanforderungen ab.

Technik Wann verwendet werden soll
DDP (Verteilte Daten parallel) Ein vollständiges Modell passt in den einzelnen GPU-Speicher; es wird notwendig sein, den Datendurchsatz zu skalieren.
FSDP (Vollständig geshardete Datenparallelität) Sehr große Modelle, die nicht in den einzelnen GPU-Speicher passen
DeepSpeed ZeRO Große Modelle mit erweiterten Speicheroptimierungsanforderungen

Ausführliche Informationen zu den einzelnen Techniken finden Sie unter DDP, FSDP und DeepSpeed.

Beispielnotizbücher nach Methode und Frameworks

In der folgenden Tabelle sind Beispielnotizbücher nach dem verwendeten Framework/der verwendeten Bibliothek und der angewendeten Parallelitätstechnik angeordnet. Mehrere Notizbücher können in einer einzelnen Zelle angezeigt werden.

Framework/Bibliothek DDP-Beispiele FSDP-Beispiele DeepSpeed-Beispiele
PyTorch (nativ) Einfaches neurales MLP-Netzwerk
RetinaNet-Bilddetektion
10M-Parametertransformer
Huggingface TRL Feinjustierung von Gpt OSS 20B Anpassen von GPT OSS 120B Feinabstimmung von Llama 3.2 1B
Unsloth Feinabstimmung von Llama 3.2 3B
Axolotl Feinabstimmung von Olmo3 7B
Mosaik LLM Studio Feinabstimmung Llama 3.2 8B
Ray Train ResNet18 auf FashionMNIST (Computer vision)
Blitz Zwei-Turm-Empfehlungssystem

Get started

Das folgende Notizbuch enthält ein grundlegendes Beispiel für die Verwendung der Serverless GPU Python-API zum Starten mehrerer A10-GPUs für verteilte Schulungen.

Serverlose GPU-API: A10 Starter

Notebook abrufen