分布式 LLM 批处理推理

重要

此功能在 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

本页提供了使用 Ray Data（适用于 AI 工作负载的可缩放数据处理库）在无服务器 GPU 计算上使用 LLM 批处理推理的笔记本示例。

使用 vLLM 与 Ray Data 进行批量推理

此笔记本演示如何在无服务器 GPU 上使用 Ray Data 和 vLLM 大规模运行 LLM 推理。它利用分布式无服务器 GPU API 自动预配和管理多节点 A10 GPU 进行分布式推理。

vLLM批次推理

获取笔记本

使用 SGLang 和 Ray Data 进行批量推理

SGLang 是 LLM 的高性能服务框架。此笔记本演示如何在 Databricks 无服务器 GPU 上使用 SGLang 和 Ray 数据运行 LLM 批处理推理。

SGLang Batch 推理

获取笔记本

反馈

此页面是否有帮助？

Last updated on 2026-01-10