多 GPU 和多节点分布式训练

重要

此功能在 Beta 版中。

本页包含使用无服务器 GPU 计算的多节点和多 GPU 分布式训练的笔记本示例。 这些示例演示如何跨多个 GPU 和节点缩放训练以提高性能。

选择并行技术

跨多个 GPU 缩放模型训练时,选择正确的并行度技术取决于模型大小、可用的 GPU 内存和性能要求。

技术 何时使用
DDP (分布式数据并行) 完整模型可以适配单个 GPU 内存;需要提高数据吞吐量
FSDP (完全分片数据并行) 非常大的模型不适合单个 GPU 的内存
DeepSpeed ZeRO 具有高级内存优化需求的大型模型

有关每种技术的详细信息,请参阅 DDPFSDPDeepSpeed

按技术和框架的示例笔记本

下表按所使用的框架/库和应用的并行度技术来组织示例笔记本。 多个笔记本可能出现在单个单元格中。

框架/库 DDP 示例 FSDP 示例 DeepSpeed 示例
PyTorch (原生) 简单的 MLP 神经网络 10M 参数转换器
拥抱脸 TRL 微调 Gpt OSS 20B 微调GPT OSS 120B 微调 Llama 3.2 1B
Unsloth 对 Llama 3.2 3B 进行微调
Ray Train FashionMNIST 上的 ResNet18 (计算机视觉)
闪电 双塔推荐系统

开始

以下笔记本提供了有关如何使用 无服务器 GPU Python API 启动多个 A10 GPU 进行分布式训练的基本示例。

无服务器 GPU API:A10 入门版

获取笔记本