你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

生成 AI 中的可观测性

注释

本文档适用于 Microsoft Foundry(经典)门户。

🔄 如果你使用的是新门户,请切换到 Microsoft Foundry(新)文档

注释

本文档适用于 Microsoft Foundry(新)门户。

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

在当今的 AI 驱动世界中,生成 AI 运营(GenAIOps)正在彻底改变组织如何构建和部署智能系统。 随着公司越来越多地使用 AI 代理和应用程序来转换决策、增强客户体验和燃料创新,一个要素至关重要:可靠的评估框架。 评估不仅仅是检查点。 它是 AI 应用程序的质量和信任的基础。 在不进行严格的评估和监视的情况下,AI 系统可以生成以下内容的内容:

  • 虚构或没有现实依据
  • 无关或不连贯
  • 在维持内容风险和刻板印象方面有害
  • 在传播错误信息方面的危险
  • 易受安全攻击

这就是可观测性变得至关重要的地方。 这些功能衡量 AI 输出中风险的频率和严重性,使团队能够在整个 AI 开发过程中系统地解决质量、安全和安全问题,从选择正确的模型到监视生产性能、质量和安全性。

什么是可观测性?

AI 可观测性是指在整个生命周期内监视、理解和对 AI 系统进行故障排除的能力。 它涉及收集和分析评估指标、日志、跟踪和模型和代理输出等信号,以便深入了解性能、质量、安全性和作运行状况。

什么是评估者?

评估器是衡量 AI 响应质量、安全性和可靠性的专用工具。 通过在 AI 开发生命周期内实施系统评估,团队可以在影响用户之前识别和解决潜在问题。 以下受支持的评估程序跨不同的 AI 应用程序类型和关注点提供全面的评估功能:

常规用途

计算器 目的 输入
一致性 测量逻辑一致性和响应流。 查询、响应
流畅度 测量自然语言质量和可读性。 响应
QA 全面衡量问题解答质量的各个方面。 查询、上下文、响应、基本真相

若要了解详细信息,请参阅 通用评估器

文本相似性

计算器 目的 输入
相似度 AI 辅助文本相似性度量。 查询、上下文、真实数据
F1 分数 标记的准确率和召回率的调和平均值在响应和基本事实之间重叠。 响应,真实数据
BLEU 翻译质量双语评估辅助分数衡量响应和基本事实之间的 n-gram 中是否存在重叠。 响应,真实数据
GLEU 用于句子级评估的 Google-BLEU 变体衡量响应和基本事实之间的 n-gram 中是否存在重叠。 响应,真实数据
红色 以召回率为导向的要点评估辅助衡量响应和基本事实之间的 n-gram 中是否存在重叠。 响应,真实数据
流星 使用显式排序的翻译评估指标衡量响应和基本事实之间的 n-gram 中是否存在重叠。 响应,真实数据

若要了解详细信息,请参阅 文本相似性计算器

RAG (检索增强生成)

计算器 目的 输入
检索 衡量系统检索相关信息的效率。 查询、上下文
文档检索(预览版) 根据基本事实衡量检索结果的准确度。 真实情况,已检索文档
真实性 度量响应与检索的上下文的一致程度。 查询(可选)、上下文、响应
有据性 Pro(预览版) 度量响应是否与检索的上下文保持一致。 查询、上下文、响应
相关性 度量响应与查询的相关性。 查询、响应
响应完整性(预览版) 衡量反应相对于基本事实的完整程度(不缺少关键信息)的措施。 响应,真实数据

若要了解详细信息,请参阅 检索增强生成(RAG)评估器

安全和安全(预览版)

计算器 目的 输入
仇恨和不公平 标识有偏见、歧视性或可恨的内容。 查询、响应
标识不适当的性内容。 查询、响应
暴力 检测暴力内容或煽动。 查询、响应
自残 检测宣传或描述自我伤害的内容。 查询、响应
内容安全 全面评估各种安全问题。 查询、响应
受保护的材料 检测未经授权使用受版权保护的内容。 查询、响应
代码漏洞 标识生成的代码中的安全问题。 查询、响应
无依据特性 检测从用户交互推断出的捏造或幻觉信息。 查询、上下文、响应

若要了解详细信息,请参阅 风险和安全评估程序

代理(预览版)

计算器 目的 输入
意向解析 衡量代理识别和解决用户意图的准确程度。 查询、响应
任务符合性 衡量代理完成已确定任务的表现。 查询、响应、工具定义(可选)
工具调用准确度 衡量代理选择和调用正确工具的表现。 查询,响应或工具调用,工具定义
计算器 目的 输入
任务符合性 根据系统指示衡量代理是否执行已识别的任务。 查询、响应、工具定义(可选)
任务完成 度量代理是否已成功完成请求的任务端到端。 查询、响应、工具定义(可选)
意向解析 衡量代理识别和解决用户意图的准确程度。 查询、响应、工具定义(可选)
任务导航效率 确定代理的步骤序列与度量效率的最佳路径或预期路径匹配。 响应、真实数据
工具调用准确度 衡量工具调用的整体质量,包括选择、参数正确性和效率。 查询、工具定义、工具调用(可选)、响应
工具选择 度量代理是否为任务选择了最合适的高效工具。 查询、工具定义、工具调用(可选)、响应
工具输入准确性 使用严格的标准验证所有工具调用参数的正确性,包括基础验证、类型、格式、完整性和适当性。 查询、响应、工具定义
工具输出利用率 衡量代理在响应和后续调用中是否正确地解释并根据上下文使用工具输出。 查询、响应、工具定义(可选)
工具调用成功 评估所有工具调用是否在未发生技术故障的情况下成功执行。 响应、工具定义(可选)

若要了解详细信息,请参阅 代理评估器

Azure OpenAI 评估器(预览版)

计算器 目的 输入
模型标记器 使用自定义准则和标签对内容进行分类。 查询,响应,真实数据
字符串检查器 执行灵活的文本验证和模式匹配。 响应
文本相似性 评估文本质量或确定语义接近性。 响应,真实数据
模型评分器 根据自定义准则为内容生成数值分数(自定义范围)。 查询,响应,真实数据

若要了解详细信息,请参阅 Azure OpenAI 评分器

开发生命周期中的评估者

通过在整个开发生命周期内以战略方式使用这些评估程序,团队可以构建更可靠、安全且有效的 AI 应用程序,以满足用户需求,同时最大程度地降低潜在风险。

企业 GenAIOps 生命周期的示意图,其中显示了模型选择、生成 AI 应用程序和操作化。

GenAIOps 评估的三个阶段

GenAIOps 使用以下三个阶段。

基础模型选择

在生成应用程序之前,需要选择正确的基础。 此初始评估可帮助你根据以下方法比较不同的模型:

  • 质量和准确性:模型的反应有多相关和连贯?
  • 任务性能:模型是否有效处理特定用例?
  • 道德注意事项:模型是否不受有害偏见的影响?
  • 安全概况:生成不安全内容的风险是什么?

可用工具Microsoft Foundry 基准 ,用于比较公共数据集或自己的数据上的模型,以及用于 测试特定模型终结点的 Azure AI 评估 SDK。

预生产评估

选择基础模型后,下一步是开发 AI 代理或应用程序。 在部署到生产环境之前,必须进行彻底的测试,以确保 AI 代理或应用程序已准备好进行实际使用。

预生产评估涉及:

  • 使用评估数据集进行测试:这些数据集模拟真实的用户交互,以确保 AI 代理按预期执行。
  • 识别极端情况:寻找 AI 代理可能导致响应质量下降或产生不良输出的情境。
  • 评估可靠性:确保 AI 代理可以处理一系列输入变化,而不会显著下降质量或安全性。
  • 衡量关键指标:评估任务符合性、响应基础性、相关性和安全性等指标,以确认生产就绪情况。

包含六个步骤的模型和应用程序的预生产评估示意图。

预生产阶段充当最终质量检查,降低部署不符合所需性能或安全标准的 AI 代理或应用程序的风险。

评估工具和方法:

  • 自带数据:可以使用自己的评估数据(包括质量、安全性或自定义评估程序)在预生产中评估 AI 代理和应用程序,并通过 Foundry 门户查看结果。 使用 Foundry 的评估向导或 Azure AI 评估 SDK 支持的 评估程序,包括生成质量、安全或 自定义评估器使用 Foundry 门户查看结果

  • 模拟器和 AI 红队测试智能体:如果你没有评估数据(测试数据),Azure AI 评估 SDK 的模拟器可以通过生成主题相关的或对抗性的查询来为你提供帮助。 这些模拟器测试模型对适合特定情况或类攻击查询(边缘案例)的响应。

    • AI 红队测试智能体使用 Microsoft 的 Python 风险识别工具或 PyRIT 开放框架,通过各种安全攻击模拟针对 AI 系统的复杂对抗性攻击。
    • 对抗模拟器 注入静态查询,这些查询模拟潜在的安全风险或安全攻击,例如尝试越狱,帮助识别限制并为意外情况准备模型。
    • 上下文适当的模拟器 会生成用户期望的典型相关对话来测试响应质量。 借助上下文适当的模拟器,可以评估生成的响应的基础性、相关性、一致性和流畅性等指标。

    使用 AI 红队测试智能体进行自动扫描可以通过系统地测试 AI 应用程序的风险来增强生产前风险评估。 此过程涉及模拟攻击方案,用于在实际部署之前识别模型响应中的弱点。 通过运行 AI 红队扫描,可以在部署之前检测和缓解潜在的安全问题。 建议将此工具与人机交互过程(例如传统的 AI 红队测试)结合使用,以帮助加速风险识别,并协助专家进行评估。

或者,还可以使用 Foundry 门户 测试生成式 AI 应用程序。

  • 自带数据:您可以在预生产阶段通过使用您的自己的评估数据,根据支持的评估工具(包括生成质量、安全性或自定义评估工具)对 AI 应用程序进行评估,并通过 Foundry 门户查看结果。 使用 Foundry 的评估向导或 Azure AI 评估 SDK 支持的 评估程序,包括生成质量、安全或 自定义评估程序,以及 通过 Foundry 门户查看结果

  • 模拟器和 AI 红队测试智能体:如果你没有评估数据(测试数据),模拟器可以通过生成主题相关的或对抗性的查询来为你提供帮助。 这些模拟器测试模型对适合特定情况或类攻击查询(边缘案例)的响应。

    • AI 红队测试智能体使用 Microsoft 的 Python 风险识别工具或 PyRIT 开放框架,通过各种安全攻击模拟针对 AI 系统的复杂对抗性攻击。

    使用 AI 红队测试智能体进行自动扫描可以通过系统地测试 AI 应用程序的风险来增强生产前风险评估。 此过程涉及模拟攻击方案,用于在实际部署之前识别模型响应中的弱点。 通过运行 AI 红队扫描,可以在部署之前检测和缓解潜在的安全问题。 建议将此工具与人机交互过程(例如传统的 AI 红队测试)结合使用,以帮助加速风险识别,并协助专家进行评估。

或者,还可以使用 Foundry 门户 测试生成式 AI 应用程序。

获得令人满意的结果后,可以将 AI 应用程序部署到生产环境。

生产后监视

部署后,持续监视可确保 AI 应用程序在实际条件下保持质量。

部署后, 持续监视 可确保 AI 应用程序在实际条件下保持质量。

  • 运营指标:定期度量关键 AI 代理的运营指标。
  • 持续评估:以采样率对生产流量进行质量和安全评估。
  • 定期评估:使用测试数据集启用定期的质量和安全性评估,以检测基础系统中的偏差。
  • 计划的红队攻击演练:提供计划对抗测试功能,用于探测安全性和保障性漏洞。
  • Azure Monitor 警报:当发生有害或不当输出时,快速采取行动。 设置持续评估的警报,以便在评估结果低于生产中的合格率阈值时收到通知。

有效的监视有助于保持用户信任,并允许快速解决问题。

可观测性为当今复杂且快速发展的 AI 环境提供全面的监视功能。 此解决方案与 Azure Monitor Application Insights 无缝集成,可持续监视已部署的 AI 应用程序,以确保生产环境中的最佳性能、安全性和质量。

Foundry 可观测性仪表板提供关键指标的实时见解。 它允许团队快速识别和解决性能问题、安全问题或质量下降问题。

对于基于代理的应用程序,Foundry 提供增强的持续评估功能。 这些功能可以更深入地了解质量和安全指标。 他们可以创建一个可靠的监视生态系统,该生态系统适应 AI 应用程序的动态性质,同时保持高性能和可靠性的高标准。

通过持续监视 AI 应用程序在生产中的行为,可以保持高质量的用户体验并迅速解决浮出水面的任何问题。

通过系统评估构建信任

GenAIOps 建立了一个可靠的过程,用于在整个生命周期内管理 AI 应用程序。 通过在每个阶段(从模型选择到部署等)团队实现彻底的评估,团队可以创建不仅强大且可信且安全的 AI 解决方案。

评估速查表

目的 流程 参数
你的评估目的是什么? 确定或构建相关的评估器 - 质量和性能示例笔记本

- 代理响应质量

- 安全与保障安全与保障示例笔记本

- 自定义自定义示例笔记本
应使用哪些数据? 上传或生成相关的数据集 - 用于测量质量和性能的通用模拟器通用模拟器示例笔记本

- 用于测量安全和安全的对抗模拟器对抗模拟器示例笔记本

- 用于运行自动扫描的 AI 红色组合代理来评估安全和安全漏洞(AI 红色组合代理示例笔记本
如何对数据集运行评估? 运行评估 - 代理评估测试

- 远程云运行

- 本地运行
我的模型/应用表现如何? 分析结果 - 查看聚合分数、查看详细信息、分数详细信息、比较评估运行结果
如何做出改进? 对模型、应用或评估器进行更改 - 如果评估结果与人工反馈不一致,请调整评估器。

- 如果评估结果与人工反馈一致但不符合质量/安全阈值,请应用有针对性的缓解措施。 要应用的缓解措施示例: Azure AI 内容安全
目的 流程 参数
你的评估目的是什么? 确定或构建相关的评估器 - RAG 质量

- 智能体质量

- 安全与保障安全与保障示例笔记本

- 自定义自定义示例笔记本
应使用哪些数据? 上传或生成相关的数据集 - 合成数据集生成

- 用于运行自动扫描的 AI 红色组合代理来评估安全和安全漏洞(AI 红色组合代理示例笔记本
如何对数据集运行评估? 运行评估 - 代理评估测试

- 远程云运行
我的模型/应用表现如何? 分析结果 - 查看聚合分数、查看详细信息、分数详细信息、比较评估运行结果
如何做出改进? 对模型、应用或评估器进行更改 - 如果评估结果与人工反馈不一致,请调整评估器。

- 如果评估结果与人工反馈一致但不符合质量/安全阈值,请应用有针对性的缓解措施。 要应用的缓解措施示例: Azure AI 内容安全

自带虚拟网络进行评估

出于网络隔离目的,可以自带虚拟网络进行评估。 若要了解详细信息,请参阅 如何配置专用链接

注释

如果 Application Insights 已连接,评估数据将发送到 Application Insights。 Application Insights 和追踪功能不支持虚拟网络。

虚拟网络区域支持

地理 支持的 Azure 区域
美国 westus、westus3、eastus、eastus2
澳大利亚 australiaeast
法国 francecentral
印度 southindia
日本 japaneast
挪威 挪威东部
瑞典 swedencentral
瑞士 switzerlandnorth
阿联酋 uaenorth
英国 uksouth

区域支持

部分 AI 辅助式评估程序目前仅在以下区域提供:

区域 仇恨与不公正,色情,暴力,自我伤害,间接攻击,代码漏洞,无依据的属性 有据性 Pro 受保护的材料
美国东部 2 已支持 已支持 已支持
瑞典中部 已支持 已支持
美国中北部 已支持
法国中部 已支持
瑞士西部 已支持

智能体操场评估区域支持

区域 状态
美国东部 已支持
美国东部 2 已支持
美国西部 已支持
美国西部 2 已支持
美国西部 3 已支持
法国中部 已支持
挪威东部 已支持
瑞典中部 已支持

定价

风险和安全评估、持续评估等可观测性功能根据 Azure 定价页中列出的消耗量计费。