重要
此功能在 Beta 版中。
本页包含使用无服务器 GPU 计算上的 DeepSpeed 进行分布式训练的笔记本示例。 DeepSpeed 通过其 ZeRO(零冗余优化器)阶段提供高级内存优化技术,从而实现对大型模型的高效训练。
何时使用 DeepSpeed
在以下情况下使用 DeepSpeed:
- 你需要超越标准 FSDP 的高级内存优化方案
- 需要对优化器状态分片进行精细控制(ZeRO 阶段 1、2 或 3)
- 需要其他功能,例如渐变累积融合或 CPU 卸载
- 你正在使用大型语言模型(1B 到 100B+ 个参数)
对于更简单的用例,请考虑 DDP。 有关使用 PyTorch 原生功能进行大型模型训练,请参阅 FSDP。
使用 TRL 和 DeepSpeed ZeRO 阶段 3 进行监督微调
此笔记本演示如何使用 无服务器 GPU Python API 在单个节点 A10 GPU 上使用 转换器强化学习(TRL)库 和 DeepSpeed ZeRO 阶段 3 优化来运行监督微调(SFT)。 此方法可以扩展到多节点设置。