你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

设置检索推理强度

注释

此功能目前处于公开预览状态。此预览版未随附服务级别协议，建议不要用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅 Microsoft Azure 预览版补充使用条款。

在代理检索中，可以指定用于查询规划和答案表述的大型语言模型（LLM）处理级别。使用该 retrievalReasoningEffort 属性设置影响成本和延迟的 LLM 处理级别。额外的 LLM 处理可提高相关性，但还需要更长的时间并使用可计费的 LLM 资源。可以在知识库或检索请求中设置此属性。

推理工作的级别包括：

级别	Effort
`minimal`	不进行LLM处理过程。提供查询。
`low`	运行基于 LLM 的查询规划和知识来源选择的单次传递。这是默认情况。 LLM 会分析查询，并根据需要将其分解为组件部件。
`medium`	将更深入的搜索和增强的检索堆栈添加到代理检索，以最大程度地提高完整性。

先决条件

提供代理检索功能的任何区域内的 Azure AI 搜索。
熟悉代理检索概念和工作流。
知识库和知识源。
具有 REST 客户端扩展的 Visual Studio Code。还可以使用 Azure SDK 的预览包，该包提供最新的知识源 REST API。

在知识库中设置 retrievalReasoningEffort

若要建立默认行为，请设置知识库中的属性。

使用创建或更新知识库设置 retrievalReasoningEffort。
添加 retrievalReasoningEffort 属性。以下 JSON 显示了语法。有关知识库的详细信息，请参阅 “创建知识库”。
```
"retrievalReasoningEffort": { /* no other parameters when effort is minimal */
    "kind": "low"
}
```

在检索请求中设置 retrieveReasoningEffort

若要为每次查询覆盖默认设置，请在检索请求中设置属性。

修改检索操作以覆盖知识库retrievalReasoningEffort的默认设置。

添加 retrievalReasoningEffort 属性。检索请求可能类似于以下示例。

{
    "messages": [ /* trimmed for brevity */  ],
    "retrievalReasoningEffort": { "kind": "low" },
    "outputMode": "answerSynthesis",
    "maxRuntimeInSeconds": 30,
    "maxOutputSize": 6000
}

选择检索推理工作

级别	Description	建议	限制
`minimal`	禁用基于 LLM 的查询规划，以实现自主检索的最低成本和延迟。它跨知识库中列出的知识源发出直接文本和矢量搜索，并返回最佳匹配段落。由于知识库中的所有知识源始终进行搜索，并且不会执行任何查询扩展，因此行为是可预测的且易于控制。这也意味着在检索请求中，`alwaysQueryKnowledgeSource` 属性将被忽略。	从搜索 API进行迁移时，或在想要自行管理查询规划时使用“最小”。	`outputMode` 必须设置为 `extractiveData`. 不支持答案合成和 Web 知识。
`low`	智能体检索的默认模式，运行基于 LLM 的查询规划和知识来源选择的单次传递。自主检索引擎生成子查询并将其分发到所选知识源，然后合并结果。可以启用答案合成功能，以生成带有内联引文的自然语言响应。	如果想要在最小延迟和更深入的处理之间实现平衡，请使用“低”。	5,000 个应答令牌。最多三个子查询来自三个知识源。语义排名最多 50 个文档，如果语义排名器使用 L3 分类，则最多 10 个文档。
`medium`	将更深入的搜索和增强的检索堆栈添加到代理检索，以最大程度地提高完整性。执行第一次搜索后，高精度语义分类器会评估检索到的文档，以确定是否需要进一步处理和 L3 排名。如果第一次传递的初始结果与查询无关，则使用修订后的查询计划执行后续迭代。此修订后的查询计划将以前的结果考虑在内，并通过调整查询、扩展查询术语或添加其他知识来源（例如网络）来循环运行。与低工作量和最少工作量相比，它还增加了资源限制。这种推理水平优化了相关性，而不是详尽的撤回。	使用“适中”来最大化 LLM 辅助的知识检索的利用效率。介质并非在所有智能体检索区域中均可用。有关可用区域，请参阅下一部分中的列表。 10,000 个应答令牌。最多五个子查询来自最多五个知识来源。语义排名最多 50 个文档，如果语义排名器使用 L3 分类，则最多 20 个文档。

中等检索和迭代搜索

如果初始结果不够相关，则中等检索推理工作可提供迭代搜索。调用额外的 语义分类器模型 以确定是否需要第二次迭代。

语义分类器执行以下作：

识别何时有足够的上下文来回答问题。
使用现有信息作为上下文对不充分的结果进行重试。新查询可能会向下钻取以获取更集中的详细信息，或扩大搜索范围。响应中的活动日志显示了生成的查询，用于获得更全面的答案。
使用 L3 分类重新评分。该范围与 L2 排名相同，绝对范围为零到 4.0。

只有一次重试。每次迭代都会增加延迟和成本，因此系统会将重试限制为一次传递。第二个迭代将输入令牌添加到查询管道，这就增加了应计费的输入令牌总数。

迭代可以重复使用或选择不同的源。第二遍选择最有潜力的知识资源来提供缺失的信息。

支持中等检索推理工作的区域

如果搜索服务位于以下区域之一，则可以设置中等检索推理工作。

美国东部 2
美国东部
美国中南部
美国西部 3
美国西部 2
美国西部
德国中西部
北欧
瑞士北部
瑞典中部
西班牙中部
英国南部
韩国中部
日本东部
东南亚

反馈

此页面是否有帮助？

Last updated on 2025-12-08