你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Microsoft Foundry 模型的部署类型

Microsoft Foundry 通过使用 Foundry Services 中的模型部署概念(前称为 Azure AI 服务)提供模型。 模型部署也是 Azure 资源,创建后,可以在特定配置下授予对给定模型的访问权限。 此类配置包括处理请求所需的基础结构。

Foundry 模型为客户提供适合其业务和使用模式的托管结构选择。 这些选项将转换为在 Foundry 资源中的模型部署时可用的不同部署类型(或 SKU)。

该服务提供两种主要类型的部署:标准和预配。 对于给定的部署类型,客户可以将工作负荷与其数据处理要求保持一致。 他们可以选择 Azure 地理(StandardProvisioned-Managed)、Microsoft指定的数据区域(DataZone- StandardDataZone Provisioned-Managed),或者全局(Global-StandardGlobal Provisioned-Managed)处理选项。

对于微调模型,额外的 Developer 部署类型提供了一种经济高效的自定义模型评估方法,但不支持数据驻留。

所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。 作为解决方案设计的一部分,需要在两个类别中做出关键决策:

  • 数据处理位置
  • 呼叫量

显示如何自定义给定模型部署的部署类型的屏幕截图。

Foundry 部署数据处理位置

对于标准部署,有三种部署类型选项可供选择:全局、数据区域和 Azure 地理位置。 对于预配的部署,有两种部署类型选项可供选择:全局和 Azure 地理位置。 我们建议以全球标准作为起点。

全局部署

全局部署使用 Azure 的全局基础结构来动态将客户流量路由到数据中心,为客户提供推理请求的最佳可用性。 这意味着,“全局”选项提供最高的初始吞吐量限制和最佳模型可用性,但也仍提供运行时间 SLA 和低延迟。 对于超出标准版和全球标准版指定使用层的大容量工作负荷,您可能会遇到延迟波动增加的情况。 对于需要在大型工作负荷使用量上降低延迟差异的客户,我们建议使用预配的部署类型。

我们的全球部署将是所有新模型和功能的首发地。 根据呼叫量,具有大量和低延迟差异要求的客户应考虑我们的预配部署类型。

数据区域部署

对于标记为 “全局”的任何部署类型,可能会在部署相关 Foundry 模型的任何地理位置处理提示和响应。 在 Azure 直接销售的 Foundry Models 的“按部署类型建模区域可用性”部分中了解详细信息。

对于标记为 DataZone 的任何部署类型,可以在指定数据区域中的任何地理位置(由Microsoft定义)中处理提示和响应。 如果在位于美国的 Foundry 资源中创建 DataZone 部署,可以在美国境内的任何地方处理提示和响应。 如果在位于欧盟成员国的 Foundry 资源中创建 DataZone 部署,则可能在该或任何其他欧盟成员国中处理提示和响应。

对于 GlobalDataZone 部署类型,静态存储的任何数据(如上传的数据)都存储在客户指定的地理位置中。 当客户在 Foundry 资源中使用 全局DataZone 部署类型时,只会影响处理的位置;Azure 数据处理和合规性承诺仍然适用。

注释

使用全局标准和数据区域标准部署类型时,如果主要区域遇到服务中断,则最初路由到该区域的所有流量都会受到影响。 若要了解详细信息,请参阅 业务连续性和灾难恢复指南

全局标准

  • 代码中的 SKU 名称: GlobalStandard

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Foundry 位置进行处理来用于推断。 进一步了解数据存储位置

全局部署可在与非全局部署类型相同的 Foundry 资源中使用。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全局标准提供最高的默认配额,无需跨多个资源进行负载均衡。

数据传输量稳定且较大的客户可能会遇到更大的延迟波动。 为每个模型设置阈值。 若要了解详细信息,请参阅配额页。 对于在大型工作负荷使用量上需要较低的延迟差异的应用程序,我们建议购买预配的吞吐量。

全球标准部署支持使用优先级处理实现可靠的高速性能,并灵活地进行即用即付。 若要了解详细信息,请参阅 Foundry 模型的优先级处理(预览版)。

全局预配

  • 代码中的 SKU 名称: GlobalProvisionedManaged

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Foundry 位置进行处理来用于推断。 进一步了解数据存储位置

全局部署可在与非全局部署类型相同的 Foundry 资源中使用。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全局预配部署使用 Azure 全局基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。

全局批处理

  • 代码中的 SKU 名称: GlobalBatch

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Foundry 位置进行处理来用于推断。 进一步了解数据存储位置

全局批处理旨在高效地处理大规模大容量的处理任务。 可以以比全球标准低 50% 的成本,使用单独的配额和 24 小时的目标周转时间处理异步请求组。 使用批处理,而不是一次发送一个请求,而是在单个文件中发送大量请求。 全局批处理请求具有单独的入队令牌配额,避免对你的在线工作负载造成任何中断。

关键用例包括:

  • 大规模数据处理:快速并行分析广泛的数据集。
  • 内容生成:创建大量文本,例如产品说明或文章。
  • 文档审阅和摘要:自动审阅和汇总冗长文档。
  • 客户支持自动化:同时处理大量查询,以加快响应速度。
  • 数据提取和分析:从大量非结构化数据中提取和分析信息。
  • 自然语言处理(NLP)任务:对大型数据集执行情绪分析或翻译等任务。
  • 营销和个性化:大规模生成个性化内容和建议。

数据区域标准

  • 代码中的 SKU 名称: DataZoneStandard

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 不过,数据可以在由 Microsoft 指定的数据区域内的任何 Foundry 位置进行推断处理。 进一步了解数据存储位置

数据区域标准部署与所有其他 Foundry 部署类型在同一 Foundry 资源中可用。 但是,它们允许使用 Azure 的全局基础结构来动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区域标准版提供的默认配额高于基于 Azure 地理的部署类型。

数据传输量稳定且较大的客户可能会遇到更大的延迟波动。 为每个模型设置阈值。 若要了解详细信息,请参阅 “配额和限制”页。 对于需要大量低延迟差异的工作负荷,我们建议使用预配的部署产品/服务。

数据区域标准部署支持使用优先级处理实现可靠、高速的性能,并灵活地进行即用即付。 若要了解详细信息,请参阅 Foundry 模型的优先级处理(预览版)。

数据区域预配

  • 代码中的 SKU 名称: DataZoneProvisionedManaged

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 不过,数据可以在由 Microsoft 指定的数据区域内的任何 Foundry 位置进行推断处理。 进一步了解数据存储位置

数据区域预配部署与所有其他 Foundry 部署类型在同一 Foundry 资源中可用。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到Microsoft指定数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区预置部署通过使用 Microsoft 指定数据区内的 Azure 基础设施,为实现高且可预测的吞吐量提供预留的模型处理容量。

数据区批处理

  • 代码中的 SKU 名称: DataZoneBatch

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 不过,数据可以在由 Microsoft 指定的数据区域内的任何 Foundry 位置进行推断处理。 进一步了解数据存储位置

数据区域批处理部署提供与 全局 Batch 部署相同的功能。 但是,它们允许使用 Azure 的全局基础设施,将流量动态路由到 Microsoft 定义的数据区中的数据中心,并针对每个请求选择可用性最佳的数据中心。

标准

  • 代码中的 SKU 名称: Standard

标准部署针对所选模型提供按调用付费的计费模型。 此模型是一种快速入门方法,因为只需为使用的内容付费。 每个区域中可用的模型和吞吐量可能会受到限制。

标准部署针对低到中等流量、高突发性的工作负载进行优化。 数据传输量稳定且较大的客户可能会遇到更大的延迟波动。

区域预配

  • 代码中的 SKU 名称: ProvisionedManaged

使用区域预配部署可以指定部署中所需的吞吐量量。 然后该服务会分配必要的模型处理容量,并确保随时可用。 吞吐量根据预配的吞吐量单位进行定义,这是表示部署吞吐量的规范化方式。 每个模型版本对都需要不同的预配吞吐量单位来部署,并为每个预配的吞吐量单位提供不同的吞吐量量。 在 有关预配吞吐量概念的文章中了解详细信息。

禁用您的订阅中的全局部署访问

Azure Policy 有助于强制实施组织标准并大规模评估合规性。 通过合规性仪表板,它提供聚合视图,以评估环境的整体状态,并有能力深入分析到每个资源和每个策略的粒度。 它还通过对现有资源的批量修正以及对新资源的自动修正,帮助资源符合规范。 详细了解 Foundry Tools 的 Azure Policy 和特定的内置控件

可以使用以下策略来禁用对任何 Foundry 部署类型的访问。 若要禁用对特定部署类型的访问,请替换为 GlobalStandard 要禁用访问权限的部署类型的 SKU 名称。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

开发者(针对微调模型)

  • 代码中的 SKU 名称: DeveloperTier

重要

静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Foundry 位置进行处理来用于推断。 进一步了解数据存储位置

微调模型支持 Developer 部署,该部署旨在支持自定义模型评估。 它不提供数据驻留保证或 SLA。 若要详细了解如何使用 Developer 部署类型,请参阅 微调指南

部署模型

显示 Foundry 门户中的模型部署对话框的屏幕截图,其中突出显示了部署类型。

若要了解如何创建资源和部署模型,请参阅 资源创建指南