Verteiltes Training mit DeepSpeed

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für verteilte Schulungen mit DeepSpeed auf Serverless GPU Compute. DeepSpeed bietet erweiterte Speicheroptimierungstechniken über seine ZeRO-Phasen (Zero Redundanty Optimizer) und ermöglicht eine effiziente Schulung großer Modelle.

Wann DeepSpeed verwendet werden sollte

Verwenden Sie DeepSpeed in folgenden Fällen:

Sie benötigen eine erweiterte Speicheroptimierung über die standardmäßige FSDP hinaus
Sie möchten eine fein abgestimmte Kontrolle über die Zustandsaufteilung des Optimierers (ZeRO-Stufe 1, 2 oder 3).
Sie benötigen zusätzliche Funktionen wie Gradientakkumulationsfusion oder CPU-Auslagerung.
Sie arbeiten mit großen Sprachmodellen (1B bis 100B+ Parameter)

Berücksichtigen Sie für einfachere Anwendungsfälle DDP. Für das Training großer, pyTorch-nativer Modelle, siehe FSDP.

Überwachte Feinabstimmung mit TRL und DeepSpeed ZeRO Stufe 3

Dieses Notizbuch veranschaulicht, wie Die Serverless GPU Python-API verwendet wird, um überwachte Feinabstimmungen (SFT) mithilfe der Transformer Reinforcement Learning (TRL)-Bibliothek mit DeepSpeed ZeRO Phase 3-Optimierung auf einer einzelnen Knoten-A10-GPU auszuführen. Dieser Ansatz kann auf Setups mit mehreren Knoten erweitert werden.

TRL DeepSpeed

Notebook abrufen

Feedback

War diese Seite hilfreich?

Last updated on 2025-12-19