使用 ML 模型终结点提供实时预测(预览版)

重要

此功能目前为预览版

通过 Microsoft Fabric,可以使用安全、可缩放且易于使用的联机终结点从 ML 模型提供实时预测。 这些终结点作为大多数 Fabric 模型的内置属性提供,无需设置即可启动完全托管的实时部署。

可以使用 面向公众的 REST API 激活、配置和查询模型终结点。 还可以使用低代码体验直接从 Fabric 接口开始,以立即激活模型终结点和预览预测。

显示 Fabric 中 ML 模型的屏幕截图,其中包含用于提供实时预测的内置终结点属性。

先决条件

局限性

  • 终结点目前可用于一组有限的 ML 模型风格,包括 Keras、LightGBM、Sklearn 和 XGBoost。
  • 终结点目前不适用于具有张量架构的模型或没有架构的模型。
  • 当前终结点不可用于依赖专用包或内部包的模型。

模型终结点入门

Fabric 中的 ML 模型预生成了可用于提供实时预测的在线终结点。 每个已注册的模型版本都有一个专用终结点 URL,可在 Fabric 接口的“终结点详细信息”标题下找到。 此 URL 以指定特定版本(例如, /versions/1/score)的子路径结尾。

显示 ML 模型终结点的属性的屏幕截图,该终结点可用于提供实时预测。

模型终结点具有以下属性:

财产 说明 默认
默认版本 此属性 (YesNo) 指示版本是否设置为模型的默认用于提供真实预测。 可以在模型设置中 自定义默认版本 No
Status 此属性指示终结点是否准备好提供预测。 状态可以是InactiveActivatingActiveDeactivatingFailed。 只有活动终结点才能提供预测。 Inactive
自动睡眠 此属性 (OnOff) 指示终结点在缺少流量的情况下是否应将容量使用量缩减为零。 如果自动睡眠处于打开状态,则终结点在五分钟后进入空闲状态,而无需传入请求。 唤醒空闲终结点的第一次调用涉及短暂延迟。 On

激活模型终结点

可以直接从 Fabric 接口激活模型终结点。 导航到想要提供实时预测的版本,并从功能区中选择“激活版本终结点”。

显示如何从 Fabric 接口激活 ML 模型终结点的屏幕截图。

Toast 消息显示 Fabric 正在准备您的终结点,以便提供预测服务,终结点的状态将更改为“正在激活”。在后台,Fabric 将启动底层容器基础设施来托管您的模型。 几分钟之内,终端节点即可提供预测。

显示正在激活的 ML 模型终结点的屏幕截图。

每个终结点都有一个状态,指示它是否准备好提供实时预测:

Status 说明
Inactive 终结点未激活以提供实时预测,并且不消耗 Fabric 容量。
Activating 终结点正在被配置为提供实时预测。 在后台,Fabric 设置底层容器基础结构来托管模型。 几分钟内,终结点处于活动状态。
Active 终结点已准备好提供实时预测。 在后台,Fabric 管理底层基础结构,根据传入流量纵向扩展资源使用情况。 流量越高,Fabric容量使用率越高。
Deactivating 正在停用终端,以便它不再提供实时预测或消耗 Fabric 容量。 在幕后,Fabric 分解了底层容器基础架构。

注释

ML 模型可以同时支持最多五个版本的活动终结点。 若要从第六个版本提供预测,必须先 停用活动终结点

管理模型终结点

要查看模型活动终结点的总览,请从界面的工具栏中选择“管理终结点”。 每个模型都有一个可自定义的默认终结点,该终结点提供你选择的版本中的预测。 可以使用设置窗格中的下拉列表选择器更新默认版本。

显示默认 ML 模型终结点 URL 的屏幕截图,可以配置该 URL 来提供特定版本的预测。

重要

如果计划使用它,请务必将默认属性设置为活动版本。 如果未设置默认属性或设置为非活动版本,则对默认终结点的调用将失败。

具有活动终结点的所有版本都列在模型的终结点设置下。 可以通过将切换器切换为“开”或“关”来修改每个终结点的自动睡眠属性。

显示如何更改 ML 模型终结点上的自动睡眠属性的屏幕截图。

小窍门

带有自动睡眠功能的活动终结点在没有流量的情况下五分钟后进入空闲状态,而唤醒它们的第一次调用会有短暂的延迟。 你可能想要为生产中的终结点关闭此属性。

用于实时预测的查询模型终结点

模型终结点可用于在 Fabric 中使用低代码体验进行即时测试。 导航到具有活动终结点的版本,并从界面中的功能区中选择“预览预测”。 可以使用与模型的输入签名匹配的表单字段向终结点发送示例请求,并实时获取示例预测。

显示用于从活动 ML 模型终结点获取示例预测的内置预览体验的屏幕截图。

若要使用随机样本值填充表单字段,请选择“自动填充”。可以添加更多窗体值集,以使用多个输入测试终结点。 选择“获取预测”以将示例请求发送到终结点。

显示用于将示例请求发送到活动 ML 模型终结点的基于表单的视图的屏幕截图。

如果希望将示例请求的格式设置为 JSON 有效负载,请使用下拉列表选择器更改视图。

显示用于将示例请求发送到活动 ML 模型终结点的基于 JSON 的视图的屏幕截图。

停用模型终结点

可以直接从 Fabric 接口停用模型终结点。 导航到不再需要提供实时预测的版本,并从界面的功能区中选择“停用版本终结点”。

显示如何从 Fabric 接口停用 ML 模型终结点的屏幕截图。

Toast 消息显示 Fabric 正在解除您的部署,终结点的状态将更改为“停用”。除非您重新激活它,否则终结点将无法再提供实时预测。

显示正在停用的 ML 模型终结点的屏幕截图。

可以从模型的设置窗格中一次性停用多个版本的终结点。 从界面中的功能区中选择“管理终结点”,然后选择一个或多个要停用的活动终结点。

显示如何从 Fabric 接口一次性停用多个 ML 模型终结点的屏幕截图。

消耗率

托管活动模型终结点使用构造容量单位(OU)。 终结点在计算节点上运行,可以根据传入流量自动扩展到三个节点。 终结点处于活动状态时,按节点计算计费。 下表显示了活动机器学习模型终结点的 CU 消耗量。

运算 操作度量单位 消耗率
模型终结点 每个节点每秒 1 个模型终结点(版本) 5 CU 秒

下表显示了示例方案及其相应的消耗率和每小时成本。

情景 说明 消耗率 每小时成本
具有非活动终结点的模型 这些模型没有活动版本终结点,也没有关联的资源利用率。 它们不涉及额外费用。 0 CU 秒 0 CU 小时
具有活动终结点但空闲终结点的模型 这些模型具有一个或多个活动版本终结点,但如果没有常规流量,它们都已缩放到零,从而自动降低成本。 5 CU 秒 0.42 CU 小时数
具有 1 个活动终结点和恒定低流量的模型 这些模型只有 1 个活动版本终结点提供预测,但没有足够的流量触发完全横向扩展。一个节点可为所有流量提供服务。 其他版本终结点可能处于非活动状态或空闲状态。 5 CU 秒 5 CU 小时
具有 1 个活动终结点和恒定高流量的模型 这些模型只有 1 个活动版本终结点提供预测,有足够的流量触发完全横向扩展。其他版本终结点可能处于非活动状态或空闲状态。 15 CU 秒 15 CU 小时
具有 5 个活动终结点和恒定高流量的模型 这些模型有 5 个活动版本终结点(当前限制)提供预测,每个终结点具有足够的流量来触发完全横向扩展。 75 CU 秒 75 CU 小时

Fabric 容量指标应用 在名称“模型终结点”下显示模型终结点作的总容量使用情况。 此外,用户可以在开票项“ML 模型终结点容量使用情况 CU”下查看其模型终结点使用情况计费费用的摘要。

模型终结点作被归类为 后台作

消耗率可能会随时更改。 Microsoft 会采用合理的措施通过电子邮件或产品内通知来通知用户。 更改应在Microsoft发行说明或 Microsoft Fabric 博客中所述的日期生效。 如果对构造消耗率中的模型终结点进行任何更改会显著增加使用所需的容量单位(CU),客户可以使用可用于所选付款方式的取消选项。