完全分片数据并行（FSDP）训练

重要

此功能在 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

本页包含用于在无服务器 GPU 计算环境中使用完全分片数据并行（FSDP）训练的笔记本示例。 FSDP 将模型参数、梯度和优化器状态分片至多个 GPU，使得训练超大型模型成为可能，而这些模型无法适应单个 GPU 的内存。

何时使用 FSDP

在以下情况下使用 FSDP：

对于适合单个 GPU 内存的较小模型，请考虑使用 DDP 以简化操作。有关高级内存优化功能，请参阅 DeepSpeed。

以下笔记本演示如何使用 FSDP2 库对 1000 万个参数转换器模型进行分布式训练。

此笔记本演示如何使用 FSDP2 和转换器强化学习（TRL）库在 GPT-OSS 120B 模型上运行监督微调（SFT）。此示例利用 FSDP 来减少内存消耗，并使用 DDP 扩展跨 8 个 H100 GPU 的全局批大小。

此页面是否有帮助？