共用方式為


完全分區資料平行 (FSDP) 訓練

這很重要

這項功能位於 測試版 (Beta) 中。 工作區管理員可以從 「預覽 」頁面控制對此功能的存取。 請參閱 管理 Azure Databricks 預覽。

本頁包含在無伺服器 GPU 運算上使用 完全分區資料平行 (FSDP) 訓練的筆記本範例。 FSDP 將模型參數、梯度與優化器狀態分配至不同的 GPU,使得能夠訓練無法放入單一 GPU 記憶體的大型模型。

何時使用 FSDP

以下情況下使用 FSDP:

  • 你的機型太大,無法放進單一顯卡的記憶體裡
  • 你需要訓練參數規模範圍在 20B 至 120B+ 的模型。
  • 你需要比 DDP 提供的更高的記憶體效率

對於能放在單一 GPU 記憶體中的小型模型,可以考慮 DDP ,因為簡單。 關於進階記憶體優化功能,請參見 DeepSpeed

使用 FSDP2 訓練一個擁有 1,000 萬參數的 Transformer 模型

以下筆記本演示了使用 FSDP2 庫對 10,000,000,000 個參數的 Transformer 模型進行分佈式訓練。

PyTorch FSDP

拿筆記本

使用 TRL 和 FSDP 訓練 OpenAI GPT-OSS 120B 模型

本筆記本示範如何在 GPT-OSS 120B 模型上使用 FSDP2Transformer Reinforcement Learning(TRL) 函式庫執行監督微調(SFT)。 此範例利用 FSDP 降低記憶體消耗,並利用 DDP 擴展 8 顆 H100 GPU 的全域批次大小。

TRL FSDP

拿筆記本