你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

为由 Azure Arc 启用的 Edge RAG 预览版配置聊天解决方案

本文简要概述了 Edge RAG 聊天解决方案的关键配置概念。 在配置聊天解决方案之前,请使用本指南来帮助规划方法。

重要

由 Azure Arc 启用的 Edge RAG 预览版目前为预览版。 有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款,请参阅 适用于 Microsoft azure 预览版的补充使用条款

在开发人员门户中配置解决方案

作为 Edge RAG 解决方案的一部分,本地开发人员门户部署在 Azure Kubernetes 服务 (AKS) 群集上。 开发人员可以访问此门户来执行以下任务:

  • 数据引入:提供本地数据源并自定义 RAG 管道的设置。
  • 数据查询:提供自定义系统提示、修改模型参数,并使用聊天场评估聊天解决方案的有效性。

通过在扩展部署时或应用注册期间提供的重定向 URI(例如,https://arcrag.contoso.com)访问门户网站。

为了验证和授权您对门户的访问,请确保在 Microsoft Entra 中同时拥有“EdgeRAGDeveloper”和“EdgeRAGEndUser”角色。

数据引入

数据引入意味着添加本地数据并设置选项,以便数据易于搜索。 这样,当有人提出问题时,系统可以找到正确的信息,并将其作为上下文提供给语言模型。

规划数据引入

开始配置聊天解决方案之前,请完成以下步骤:

  • 准备数据。 查看 支持的数据源。 请确保所有专用数据都位于可从 Edge RAG 访问的网络文件系统(NFS)共享中。 对于数据引入,需要 NFS 共享路径、NFS 用户 ID 和 NFS 组 ID。

    请确保文件未设置密码保护,且未加密,以便 Edge RAG 应用程序能够访问数据。

  • 选择正确的数据引入设置。 在 Edge RAG 中添加数据源之前,建议选择适当的引入类型、区块设置和同步频率。

引入类型

使用包含表和图表的文档时,请务必在引入过程中选择正确的分析方法。 Edge RAG 提供两种引入选项:

  • 基本:快速从文档中提取自由格式文本。 这是相对快速高效的默认选项,但它可能不会捕获表、图表或图像的结构。
  • 高级:通过提取文本结构、表、图像和其他元素更深入。 它比基本分析速度慢,但准确性和保真度更高,尤其是对于复杂文档。

选择最符合需求的选项。 如果你追求速度,请使用基本选项。 如果需要详细的结构化数据,请使用高级分析。 有关详细信息,请参阅 Edge RAG 的高级数据分析

区块设置

在 Edge RAG 中添加数据源之前,请选择适当的区块大小、区块重叠和同步频率。 下面是一些高级指南,用于为数据选择适当的区块设置,如 Azure 提供:

  • 区块大小:定义一个足以容纳语义上有意义的段落(例如 200 个单词)并允许一定程度的重叠(例如内容的 10-15%)的固定大小就可以生成良好的区块,作为嵌入向量生成器的输入

    处理器 建议的区块大小 支持的最大大小
    GPU 2000 4000
    仅 CPU 2000 2000
  • 区块重叠:分块数据时,在区块之间重叠少量文本有助于保留上下文。 建议从大约 10% 的重叠开始。 例如,如果固定区块大小为 256 个标记,则一开始可以使用 25 个标记的重叠进行测试。 实际重叠量因数据类型和特定用例而异,但我们发现 10-15% 适用于许多方案。

    处理器 建议的区块重叠 支持的最大重叠
    GPU 200 1000
    仅 CPU 200 200

涉及到数据分块时,请考虑以下因素:

  • 文档的形状和密度:如果需要完整的文本或段落,保留句子结构的较大区块和可变分块可能会产生更好的结果。

  • 用户查询:较大的区块和重叠策略有助于为面向特定信息的查询保留上下文和语义丰富性。

  • 大型语言模型(LLM)具有区块大小的性能准则。 你需要设置一个最适合正在使用的所有模型的区块大小。 例如,如果将模型用于摘要和嵌入项,请选择适用于两者的最佳区块大小。

使用 REST API 引入数据

还可以使用 REST API 以编程方式执行数据引入。

  • 数据引入可能需要很长时间,具体取决于数据的大小、嵌入模型可用的计算资源,以及其他因素。
  • 根据需要创建任意数量的数据引入。 但是,所有数据都向量化并存储在单个索引中。

数据查询

在 Edge RAG 中,设置数据查询意味着创建系统提示、根据需要调整模型设置,并检查解决方案是否按预期工作。

选择正确的提示和模型参数

提示工程的关键部分是根据数据和用例提供正确的系统提示和模型参数。

与 Edge RAG 聊天

Edge RAG 提供两种聊天体验:

  • 基于知识的聊天:使用你自己的引入数据作为上下文与模型聊天。 这意味着模型的答案基于组织的文档和数据源,因此你可以获取相关且基于最新信息的响应。
  • 模型聊天:直接与语言模型聊天,而无需将引入的数据用作上下文。 如果想要提出常规问题、测试模型的原始功能或查看其响应方式而不提供任何额外信息,这非常有用。

根据所需内容在基于知识的聊天和模型聊天之间进行切换。

使用 REST API 进行数据查询

除了开发人员门户,还可以使用 REST API 配置聊天解决方案,例如提供系统消息和模型参数。

使用聊天终结点

设置数据引入后,你作为提示工程师,对聊天解决方案感到满意后,可以在下游业务线应用程序中集成聊天终端点。 或者,最终用户可以使用现装提供的聊天应用程序快速开始。 有关详细信息,请参阅 测试 Edge RAG 的聊天解决方案

如果要将聊天终结点集成到业务线应用程序中,请使用 REST API。