你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
注释
此功能目前处于公开预览状态。 此预览版未随附服务级别协议,建议不要用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
在代理检索中,可以指定用于查询规划和答案表述的大型语言模型(LLM)处理级别。 使用该 retrievalReasoningEffort 属性设置影响成本和延迟的 LLM 处理级别。 额外的 LLM 处理可提高相关性,但还需要更长的时间并使用可计费的 LLM 资源。 可以在知识库或检索请求中设置此属性。
推理工作的级别包括:
| 级别 | Effort |
|---|---|
minimal |
不进行LLM处理过程。 提供查询。 |
low |
运行基于 LLM 的查询规划和知识来源选择的单次传递。 这是默认情况。 LLM 会分析查询,并根据需要将其分解为组件部件。 |
medium |
将更深入的搜索和增强的检索堆栈添加到代理检索,以最大程度地提高完整性。 |
先决条件
提供代理检索功能的任何区域内的 Azure AI 搜索。
熟悉 代理检索概念和工作流。
具有 REST 客户端扩展的 Visual Studio Code。 还可以使用 Azure SDK 的预览包,该包提供最新的知识源 REST API。
在知识库中设置 retrievalReasoningEffort
若要建立默认行为,请设置知识库中的属性。
使用 创建或更新知识库 设置
retrievalReasoningEffort。添加
retrievalReasoningEffort属性。 以下 JSON 显示了语法。 有关知识库的详细信息,请参阅 “创建知识库”。"retrievalReasoningEffort": { /* no other parameters when effort is minimal */ "kind": "low" }
在检索请求中设置 retrieveReasoningEffort
若要为每次查询覆盖默认设置,请在检索请求中设置属性。
修改 检索操作 以覆盖知识库
retrievalReasoningEffort的默认设置。添加
retrievalReasoningEffort属性。 检索请求可能类似于以下示例。{ "messages": [ /* trimmed for brevity */ ], "retrievalReasoningEffort": { "kind": "low" }, "outputMode": "answerSynthesis", "maxRuntimeInSeconds": 30, "maxOutputSize": 6000 }
选择检索推理工作
| 级别 | Description | 建议 | 限制 |
|---|---|---|---|
minimal |
禁用基于 LLM 的查询规划,以实现自主检索的最低成本和延迟。 它跨知识库中列出的知识源发出直接文本和矢量搜索,并返回最佳匹配段落。 由于知识库中的所有知识源始终进行搜索,并且不会执行任何查询扩展,因此行为是可预测的且易于控制。 这也意味着在检索请求中,alwaysQueryKnowledgeSource 属性将被忽略。 |
从搜索 API进行迁移时,或在想要自行管理查询规划时使用“最小”。 |
outputMode 必须设置为 extractiveData. 不支持答案合成和 Web 知识。 |
low |
智能体检索的默认模式,运行基于 LLM 的查询规划和知识来源选择的单次传递。 自主检索引擎生成子查询并将其分发到所选知识源,然后合并结果。 可以启用答案合成功能,以生成带有内联引文的自然语言响应。 | 如果想要在最小延迟和更深入的处理之间实现平衡,请使用“低”。 | 5,000 个应答令牌。 最多三个子查询来自三个知识源。 语义排名最多 50 个文档,如果语义排名器使用 L3 分类,则最多 10 个文档。 |
medium |
将更深入的搜索和增强的检索堆栈添加到代理检索,以最大程度地提高完整性。 执行第一次搜索后, 高精度语义分类器 会评估检索到的文档,以确定是否需要进一步处理和 L3 排名。 如果第一次传递的初始结果与查询无关,则使用修订后的查询计划执行后续迭代。 此修订后的查询计划将以前的结果考虑在内,并通过调整查询、扩展查询术语或添加其他知识来源(例如网络)来循环运行。 与低工作量和最少工作量相比,它还增加了资源限制。 这种推理水平优化了相关性,而不是详尽的撤回。 | 使用“适中”来最大化 LLM 辅助的知识检索的利用效率。 介质并非在所有智能体检索区域中均可用。 有关可用区域,请参阅下一部分中的列表。 10,000 个应答令牌。 最多五个子查询来自最多五个知识来源。 语义排名最多 50 个文档,如果语义排名器使用 L3 分类,则最多 20 个文档。 |
中等检索和迭代搜索
如果初始结果不够相关,则中等检索推理工作可提供迭代搜索。 调用额外的 语义分类器模型 以确定是否需要第二次迭代。
语义分类器执行以下作:
识别何时有足够的上下文来回答问题。
使用现有信息作为上下文对不充分的结果进行重试。 新查询可能会向下钻取以获取更集中的详细信息,或扩大搜索范围。 响应中的活动日志显示了生成的查询,用于获得更全面的答案。
使用 L3 分类重新评分。 该范围与 L2 排名相同,绝对范围为零到 4.0。
只有一次重试。 每次迭代都会增加延迟和成本,因此系统会将重试限制为一次传递。 第二个迭代将输入令牌添加到查询管道,这就增加了应计费的输入令牌总数。
迭代可以重复使用或选择不同的源。 第二遍选择最有潜力的知识资源来提供缺失的信息。
支持中等检索推理工作的区域
如果搜索服务位于以下区域之一,则可以设置中等检索推理工作。
- 美国东部 2
- 美国东部
- 美国中南部
- 美国西部 3
- 美国西部 2
- 美国西部
- 德国中西部
- 北欧
- 瑞士北部
- 瑞典中部
- 西班牙中部
- 英国南部
- 韩国中部
- 日本东部
- 东南亚