使用 DeepSpeed 的分布式训练

重要

此功能在 Beta 版中。

本页包含使用无服务器 GPU 计算上的 DeepSpeed 进行分布式训练的笔记本示例。 DeepSpeed 通过其 ZeRO(零冗余优化器)阶段提供高级内存优化技术,从而实现对大型模型的高效训练。

何时使用 DeepSpeed

在以下情况下使用 DeepSpeed:

  • 你需要超越标准 FSDP 的高级内存优化方案
  • 需要对优化器状态分片进行精细控制(ZeRO 阶段 1、2 或 3)
  • 需要其他功能,例如渐变累积融合或 CPU 卸载
  • 你正在使用大型语言模型(1B 到 100B+ 个参数)

对于更简单的用例,请考虑 DDP。 有关使用 PyTorch 原生功能进行大型模型训练,请参阅 FSDP

使用 TRL 和 DeepSpeed ZeRO 阶段 3 进行监督微调

此笔记本演示如何使用 无服务器 GPU Python API 在单个节点 A10 GPU 上使用 转换器强化学习(TRL)库 和 DeepSpeed ZeRO 阶段 3 优化来运行监督微调(SFT)。 此方法可以扩展到多节点设置。

TRL DeepSpeed

获取笔记本