多 GPU 和多节点分布式训练

重要

此功能在 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

本页包含使用无服务器 GPU 计算的多节点和多 GPU 分布式训练的笔记本示例。这些示例演示如何跨多个 GPU 和节点缩放训练以提高性能。

选择并行技术

跨多个 GPU 缩放模型训练时，选择正确的并行度技术取决于模型大小、可用的 GPU 内存和性能要求。

有关每种技术的详细信息，请参阅 DDP、 FSDP 和 DeepSpeed。

下表按所使用的框架/库和应用的并行度技术来组织示例笔记本。多个笔记本可能出现在单个单元格中。

框架/库	DDP 示例	FSDP 示例	DeepSpeed 示例
PyTorch （原生）	简单的 MLP 神经网络 RetinaNet 图像检测	10M 参数转换器	—
拥抱脸 TRL	微调 Gpt OSS 20B	微调GPT OSS 120B	微调 Llama 3.2 1B
Unsloth	对 Llama 3.2 3B 进行微调	—	—
Axolotl	微调 Olmo3 7B	—	—
马赛克 LLM 铸造厂	微调 Llama 3.2 8B	—	—
光线训练	FashionMNIST 上的 ResNet18 （计算机视觉） XGBoost 超参数优化	—	—
闪电	双塔推荐系统	—	—

以下笔记本提供了有关如何使用无服务器 GPU Python API 启动多个 A10 GPU 进行分布式训练的基本示例。

此页面是否有帮助？