你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Windows Server 2025 上的 Foundry Local

Windows Server 2025 上的 Foundry Local 使你可以完全在运行的单个 Windows Server 计算机上运行所选Microsoft Foundry 模型功能。 使用本常见问题解答可快速确认本地运行时与云服务的区别、部署方式、支持的操作系统和 GPU 场景、并发行为以及 SDK 与服务的关联。

常见问题

  • Windows Server 上的 Foundry Local 与 Foundry 之间的功能区别是什么?

    能力 Foundry Local (在服务器上) Foundry(云平台)
    模型目录 本地目录较小,支持 BYOM。 嵌入模型尚未在本地目录中提供。 广泛目录,包括服务中的嵌入式内容、管理更新、评估、安全工具和代理服务。
    缩放与高可用性 单节点运行时。 没有内置的自动缩放或多节点分配功能。 管理规模、多区域选项、HA/DR 模式和平台治理。 最适合高并发和突发流量场景。
    并发/吞吐量 有限;随着并发客户端的增长,吞吐量会下降。 目前不支持连续批处理。 云规模和负载分布;用于并发和吞吐量的平台服务。
    应用程序接口 用于聊天/完成任务的 OpenAI 兼容 REST 接口;可以集成 MCP。 完整的 Foundry API、响应 API、代理服务、eval 和与开发工具的集成。
    Operations 像操作任何服务器应用一样:安装、加固、安全、监控、备份;在本地管理模型数据。 企业治理、成本控制、环境、RBAC/网络、评估和集成 DevOps。
  • Foundry Local 是 Windows 组件、应用还是服务?

    它在 Windows Server 计算机上作为服务运行。 可以使用 winget 安装它。

    winget install Microsoft.FoundryLocal
    
  • 哪个版本的服务器支持 Foundry Local?

    • Windows Server 2025 数据中心
    • Windows Server 2025 标准
  • Foundry Local 是否在具有 GPU-P 的虚拟机上运行?

    Foundry Local 检测 GPU-P VM 内的分区 GPU ,并在可用时选取启用了 CUDA 的模型。 否则,它会适当地回退。 还会根据 VM 中的 GPU 的可用性自动选择执行提供程序。

  • 服务器上的 Foundry Local 的并发限制是什么? Foundry Local 未经过优化,无法作为一个共享的本地终端来服务多个用户。 它尚不支持并发推理请求。 对一个 Foundry 本地终结点的请求按顺序处理。 必须在应用程序级别跨多个终结点管理并行执行。 随着并发请求的增加,吞吐量下降和延迟增加。 本地运行时中没有连续批处理功能,因此在负载情况下不会发生请求合并。 对于多用户或波动的流量,请迁移到 Microsoft Foundry

  • Foundry Local SDK 与 Foundry Local 服务有何不同?

    Foundry Local SDK 是一个开发工具包,用于使用 Foundry Local 服务生成软件或应用程序,而无需直接使用 Foundry Local CLI 或 REST API。

代码示例

医疗报告摘要工具演示了使用在远程 Windows Server 中运行的 Foundry Local 的医疗报告摘要器和翻译器。