你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

配置内容筛选器

注释

本文档引用 Microsoft Foundry (经典) 门户。

🔍 查看 Microsoft Foundry (new) 文档 ,了解新门户。

集成到 Microsoft Foundry 的内容筛选系统与核心模型一起运行,包括图像生成模型。 它使用一组多类分类模型来检测四类有害内容(暴力、仇恨、性和自残),分别为四个严重级别(安全、低、中和高),并使用可选的二元分类器来检测越狱风险、现有文本和公共存储库中的代码。

默认内容筛选配置设置为在提示和完成的所有四个内容危害类别的中等严重性阈值下进行筛选。 这表示检测到的严重性级别为中或高的内容将被筛选,而检测到的严格性级别为低或安全的内容不会被内容筛选器筛选。 在此处了解有关内容类别、严重性级别和内容筛选系统行为的详细信息。

提示防护和受保护的文本和代码模型是可选的,默认情况下处于打开状态。 对于提示防护机制和受保护的材料文本及代码模型,可配置性功能允许所有用户启用或禁用这些模型。 这些模型默认处于开启状态,可以根据情况开启。 某些模型需要在某些情况下打开才能保留客户版权承诺项下的覆盖范围。

注释

所有客户都可以修改内容筛选器并配置严重性阈值(低、中、高)。 需要批准才能部分或完全关闭内容筛选器。 托管客户只能通过以下表单申请完整的内容筛选控制: 受限访问评审:修改的内容筛选器。 目前,无法成为托管客户。

可以在资源级别配置内容筛选器。 创建了新配置后,就可以将其与一个或多个部署相关联。 有关模型部署的详细信息,请参阅资源部署指南

先决条件

  • 必须具有 Azure OpenAI 资源和大型语言模型 (LLM) 部署才能配置内容筛选器。 按快速入门的说明开始操作。

了解内容筛选器的可配置性

Microsoft Foundry 模型中的 Azure OpenAI 包括应用于所有模型的默认安全设置(不包括音频 API 模型(如 Whisper)。 这些配置默认提供负责任的体验,包括内容筛选模型、阻止列表、提示转换和内容凭据等。 在此处了解详细信息

所有客户还可以配置内容筛选器并创建自定义内容策略,这些策略根据用例要求定制。 可配置性功能让客户可以分别调整提示和完成设置,以便按不同的严重性级别筛选每个内容类别的内容,如下表所示。 在“安全”严重级别检测到的内容在批注输出中标记,但不受筛选的约束,并且不可配置。

按严重性筛选 针对提示可配置 针对补全可配置 说明
低、中、高 是的 是的 最严格的筛选配置。 检测到的严重性级别为低、中和高的内容将被筛选。
中、高 是的 是的 检测到的严重性级别为低的内容不会被筛选,中和高的内容会被筛选。
是的 是的 检测到的严重性级别为低和中的内容不会被筛选。 仅筛选严重性级别为高的内容。
无筛选器 如果已批准1 如果已批准1 无论检测到的严重性级别如何,都不会筛选任何内容。 需要批准1
仅批注 如果已批准1 如果已批准1 禁用筛选功能,因此不会阻止内容,而是通过 API 响应返回批注。 需要批准1

1 对于 Azure OpenAI 模型,只有已批准修改内容筛选的客户才具有完整的内容筛选控制,并且可关闭内容筛选器。 通过以下表单申请修改的内容筛选器: 受限访问评审:修改的内容筛选器。 对于 Azure 政府版客户,请通过以下表单申请修改的内容筛选器: Azure 政府 - 请求修改的内容筛选

输入(提示)和输出(补全)的可配置内容筛选器可用于所有 Azure OpenAI 模型。

内容筛选配置是在 Foundry 门户中的资源中创建的,可与部署相关联。 在此处详细了解如何配置内容筛选器

客户负责确保集成 Azure OpenAI 的应用程序符合 行为准则

了解其他筛选器

除了默认的危害类别筛选器之外,你还可以配置以下筛选器类别。

筛选器类别 状态 默认设置 应用于提示或补全? DESCRIPTION
针对直接攻击(越狱)的提示防护 GA 启用 用户提示 过滤/批注可能具有越狱风险的用户提示。 要详细了解批注,请访问 Foundry 内容过滤
针对间接攻击的提示防护 GA 关闭 用户提示 过滤/批注间接攻击(也称为间接提示攻击或跨域提示注入攻击),这是一种潜在的漏洞,其中第三方会将恶意指令置于生成式 AI 系统可以访问和处理的文档中。 需要文档嵌入和格式设置
受保护材料 - 代码 GA 启用 补全 过滤受保护的代码或获取与任何公共代码源匹配的代码片段的批注中的示例引用和许可信息,由 GitHub Copilot 提供支持。 有关使用批注的详细信息,请参阅 受保护的材料概念指南
受保护材料 - 文本 GA 启用 补全 识别已知文本内容(例如,歌词、食谱和选定的网页内容)并阻止其显示在模型输出中。
真实性 预览 关闭 补全 检测大型语言模型 (LLM) 的文本响应是否以用户提供的源材料为依据。 无据性是指 LLM 生成的信息与源材料中的信息不符或不准确。 需要文档嵌入和格式设置
个人身份信息(PII) 预览 关闭 补全 筛选可用于标识特定个人的信息,例如姓名、地址、电话号码、电子邮件地址、社会安全号码、驾驶执照号码、护照号码或类似信息。

在 Microsoft Foundry 中创建内容筛选器

对于 Foundry 中的任何模型部署,可以直接使用默认内容筛选器,但你可能想要获得更多控制。 例如,你可以使筛选器更严格或更宽松,或者启用提示盾牌和受保护材料检测等更高级的功能。

小窍门

有关 Foundry 项目中的内容筛选器的指南,可以在 Foundry 内容筛选中阅读详细信息。

按照以下步骤创建内容筛选器:

小窍门

由于可以在 Microsoft Foundry 门户中 自定义左窗格 ,因此你可能会看到与这些步骤中显示的项目不同。 如果未看到要查找的内容,请选择 ... 左窗格底部的更多内容。

  1. 登录到 Microsoft Foundry。 确保 New Foundry 开关处于关闭状态。 这些步骤适用于 Foundry(经典)。

  2. 导航到你的项目。 然后从左侧菜单中选择 Guardrails + 控件 页,然后选择 “内容筛选器 ”选项卡。

    用于创建新内容筛选器的按钮的屏幕截图。

  3. 选择“+ 创建内容筛选器”。

  4. 在“基本信息”页面上,输入内容筛选配置的名称。 选择要与内容筛选器关联的连接。 然后选择下一步

    用于在创建内容筛选器时选择或输入基本信息(例如筛选器名称)的选项的屏幕截图。

    现在,可以配置输入筛选器(用于用户提示)和输出筛选器(用于模型完成)。

  5. 在“输入筛选器”页面上,可以设置输入提示的筛选器。 对于前四个内容类别,每个类别有三个可配置的严重性级别:低、中和高。 如果你确定你的应用程序或使用方案需要与默认值不同的筛选,则可以使用滑块设置严重性阈值。 某些筛选器(如提示盾牌和受保护材料检测)可用于确定模型是否应批注和/或阻止内容。 选择 仅注释 会运行相应的模型,并通过 API 响应返回批注,但不会对内容进行筛选。 除了批注外,还可以选择阻止内容。

    如果您的用例获得了修改内容筛选器的批准,您将获得对内容筛选配置的完全控制。 可以选择部分或完全关闭筛选,或仅针对内容危害类别(暴力、仇恨、性以及自我伤害)启用批注。

    内容按类别批注,并根据您设置的阈值分类处理。 对于暴力、仇恨、色情和自残类别,可以调整滑块来阻止高、中或低严重性的内容。

    输入筛选器屏幕的屏幕截图。

  6. 在“ 输出筛选器 ”页上,可以配置输出筛选器,该筛选器应用于模型生成的所有输出内容。 像以前一样配置各个筛选器。 该页面提供流式处理模式选项,使您可以在模型生成内容时几乎实时地筛选内容,并减少延迟。 完成后,选择“下一步”。

    内容按照每个类别进行标注,并根据阈值设定进行分块。 对于暴力内容、仇恨内容、色情内容和自残内容类别,可以调整阈值来阻止严重级别相同或更高的有害内容。

    输出筛选器屏幕的屏幕截图。

  7. (可选)在 “连接 ”页上,可以将内容筛选器与部署相关联。 如果所选部署已附加了筛选器,则必须确认要替换它。 还可以稍后将内容筛选器与部署相关联。 选择 创建

    内容筛选配置是在 Foundry 门户中的中心级别创建的。 在 Foundry Models 文档中的 Azure OpenAI 中了解有关可配置性的详细信息。

  8. 在“查看”页面上查看设置,然后选择“创建筛选器”。

使用阻止列表作为筛选器

你可以将阻止列表作为输入或输出筛选器,或者同时作为这两种出筛选器。 在“输入筛选器”和/或“输出筛选器”页面上启用“阻止列表”选项。 从下拉列表中选择一个或多个阻止列表,或使用内置的不雅内容阻止列表。 你可以将多个阻止列表合并到同一个筛选器中。

应用内容筛选器

筛选器创建过程提供了将筛选器应用于所需部署的选项。 你也可以随时更改或移除部署中的内容筛选器。

按照以下步骤将内容筛选器应用于部署:

  1. 转到 Foundry 并选择项目。

  2. 选择左侧窗格中的“模型 + 终结点”并选择其中一个部署,然后选择“编辑”。

    用于编辑部署的按钮的屏幕截图。

  3. 在“更新部署”窗口中,选择要应用于部署的内容筛选器。 然后选择“保存并关闭”。

    应用内容筛选器的屏幕截图。

    如有必要,还可以编辑和删除内容筛选器配置。 在删除内容筛选配置之前,需要从“ 部署 ”选项卡中的任何部署中取消分配并替换它。

现在,可以转到操场来测试内容筛选器是否按预期工作。

小窍门

还可以使用 REST API 创建和更新内容筛选器。 有关详细信息,请参阅 API 参考。 可以在资源级别配置内容筛选器。 创建了新配置后,就可以将其与一个或多个部署相关联。 有关模型部署的详细信息,请参阅资源 部署指南

在请求时指定内容筛选配置

除了部署级别内容筛选配置之外,我们还提供一个请求标头,用于在每次 API 调用的请求时指定自定义配置。

curl --request POST \ 
    --url 'URL' \ 
    --header 'Content-Type: application/json' \ 
    --header 'api-key: API_KEY' \ 
    --header 'x-policy-id: CUSTOM_CONTENT_FILTER_NAME' \ 
    --data '{ 
        "messages": [ 
            { 
                "role": "system", 
                "content": "You are a creative assistant." 
            }, 
            { 
                "role": "user", 
                "content": "Write a poem about the beauty of nature." 
            } 
        ] 
    }' 

请求级内容筛选配置将替代特定 API 调用的部署级别配置。

重要

请求时的内容筛选器规范不适用于图像输入(与图像聊天)方案。 在这些情况下,将使用默认内容筛选器。

如果指定了不存在的配置,将返回以下错误消息。

{ 
    "error": 
        { 
            "code": "InvalidContentFilterPolicy", 
            "message": "Your request contains invalid content filter policy. Please provide a valid policy." 
        } 
} 

报告内容筛选反馈

如果遇到内容筛选问题,请选择操场顶部的“筛选器反馈”按钮。 这是在提交提示后,在“图像、聊天和完成”操场中启用的。

出现对话框时,选择相应的内容筛选问题。 尽可能包含与你的内容筛选问题相关的详细信息,例如遇到的具体提示和内容筛选错误。 请勿包含任何私人或敏感信息。

如需支持,请提交支持工单

遵循最佳做法

建议通过迭代标记(例如,红队测试、压力测试和分析)和测量过程来告知内容筛选配置决策,以解决与特定模型、应用和部署案例相关的潜在危害。 在实施内容筛选等缓解措施后,重复测量以测试有效性。 基于 Microsoft 负责任 AI 标准的适用于 Azure OpenAI 的负责任 AI 的建议和最佳做法可以在 Azure OpenAI 的负责任 AI 概述中找到