重要
此功能在 Beta 版中。 工作区管理员可以从 预览 页控制对此功能的访问。 请参阅 管理 Azure Databricks 预览版。
本页提供了使用 Ray Data(适用于 AI 工作负载的可缩放数据处理库)在无服务器 GPU 计算上使用 LLM 批处理推理的笔记本示例。
使用 vLLM 与 Ray Data 进行批量推理
此笔记本演示如何在无服务器 GPU 上使用 Ray Data 和 vLLM 大规模运行 LLM 推理。 它利用分布式无服务器 GPU API 自动预配和管理多节点 A10 GPU 进行分布式推理。
vLLM批次推理
使用 SGLang 和 Ray Data 进行批量推理
SGLang 是 LLM 的高性能服务框架。 此笔记本演示如何在 Databricks 无服务器 GPU 上使用 SGLang 和 Ray 数据运行 LLM 批处理推理。