Freigeben über


Verteiltes Training mit DeepSpeed

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für verteilte Schulungen mit DeepSpeed auf Serverless GPU Compute. DeepSpeed bietet erweiterte Speicheroptimierungstechniken über seine ZeRO-Phasen (Zero Redundanty Optimizer) und ermöglicht eine effiziente Schulung großer Modelle.

Wann DeepSpeed verwendet werden sollte

Verwenden Sie DeepSpeed in folgenden Fällen:

  • Sie benötigen eine erweiterte Speicheroptimierung über die standardmäßige FSDP hinaus
  • Sie möchten eine fein abgestimmte Kontrolle über die Zustandsaufteilung des Optimierers (ZeRO-Stufe 1, 2 oder 3).
  • Sie benötigen zusätzliche Funktionen wie Gradientakkumulationsfusion oder CPU-Auslagerung.
  • Sie arbeiten mit großen Sprachmodellen (1B bis 100B+ Parameter)

Berücksichtigen Sie für einfachere Anwendungsfälle DDP. Für das Training großer, pyTorch-nativer Modelle, siehe FSDP.

Überwachte Feinabstimmung mit TRL und DeepSpeed ZeRO Stufe 3

Dieses Notizbuch veranschaulicht, wie Die Serverless GPU Python-API verwendet wird, um überwachte Feinabstimmungen (SFT) mithilfe der Transformer Reinforcement Learning (TRL)-Bibliothek mit DeepSpeed ZeRO Phase 3-Optimierung auf einer einzelnen Knoten-A10-GPU auszuführen. Dieser Ansatz kann auf Setups mit mehreren Knoten erweitert werden.

TRL DeepSpeed

Notebook abrufen