你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Edge RAG 预览版是 一个启用 Azure Arc 的 Kubernetes 扩展,可以使用生成式 AI 和检索增强生成(RAG)技术搜索本地数据。 RAG 是一种行业标准体系结构,它使用专用数据增强语言模型的功能。
Azure Arc 启用的 Edge RAG 预览版是一种一站式解决方案,包含了所有必要的组件,使客户能够创建自定义聊天助手并从其私有数据中获取见解,包括:
- 提供可在本地运行的生成式人工智能(GenAI)语言模型,支持 CPU 和 GPU 硬件。
- 一个一站式的数据引入和 RAG 管道,保持所有数据本地化,并使用 Azure 基于角色的访问控制(Azure RBAC)来防止未经授权的访问。
- 一种开箱即用的提示工程和评估工具,用于查找、构建、评估和部署自定义聊天解决方案。
- 用于集成到业务应用程序的 Azure 等效 API 和预打包的 UI 以快速入门。
尽管 Edge RAG 能够引入和检索要与文本一起用作上下文引用的相关图像,但请务必注意,它不是视觉语言模型(VLM)。
Edge RAG 已在支持 Azure Arc 的 Azure Local(原 Azure Stack HCI)基础设施上的 Kubernetes 中得到支持和验证,并作为预览功能提供,用于 Azure Local 的断连运行场景。
有关详细信息,请参阅 Azure Arc、 已启用 Azure Arc 的 Kubernetes 和 Azure Arc 扩展。
重要
由 Azure Arc 启用的 Edge RAG 预览版目前为预览版。 有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款,请参阅 适用于 Microsoft azure 预览版的补充使用条款 。
客户场景和用例
对于跨垂直行业(如制造、金融服务、医疗保健、政府和国防)的客户,将在本地生成和存储有价值的数据。 由于法规、延迟、业务连续性或实时生成的数据量,这在超大规模云之外发生。 客户希望使用生成式 AI 应用从此本地数据获取见解。
Edge RAG 支持 Q&A 功能,允许客户通过自定义聊天机器人查询本地数据,以实现以下方案:
政府客户希望从敏感的本地数据中获取见解,以便更快地做出决策、汇总大型数据集、创建培训材料等。
由于监管约束,区域银行希望将一些必须保留在本地的数据用于合规性检查、客户协助以及个性化销售方案生成等应用场景。
全球制造商希望创建工厂车间助理,以缩短问题解决和帮助故障排除的时间,使用需要保留本地的数据来遵守组织策略。
为什么使用 Edge RAG?
使用 Edge RAG 可以:
- 通过整套解决方案来缩短上市时间,从而加速在本地数据上开发和部署 AI 应用程序。
- 使用企业级解决方案简化运营和端到端管理,该解决方案提供与Microsoft所需的相同安全性、合规性和可管理性标准,包括所有组件的生命周期和版本管理,以及 Azure RBAC 的 Microsoft Entra 集成。
- 消除对单独开发人员技能集的需求,提供一致的云开发人员体验
- 紧跟这一快速发展的领域,依靠 AI 技术领导者 Microsoft 的持续创新,继续专注于创造业务价值。
重要概念
查看 Edge RAG 的以下重要概念:
分块将 大型文档拆分为较小的可管理文本块(区块)。
- 区块大小:分块将大型文档划分为较小的单元,其大小(例如,1000-2000 个字符)和区块重叠(例如,100-500 个字符)等设置控制其粒度和连续性。 较小的区块可以提高检索精度,但可能会丢失上下文,而较大的区块虽然能确保上下文的完整性,却可能降低精度。
- 区块重叠:重叠区块保持跨边界的上下文,但会增加存储和计算要求。
最佳区块设置取决于用例、平衡准确性、效率和性能。
数据引入 是导入和准备要用于检索的外部内容(如文档或图像)的过程。 这包括清理、格式化和组织数据等预处理步骤。
嵌入模型可将 文本、图像或其他数据转换为捕获语义含义的密集数值向量(嵌入)。 这些向量表示输入之间的关系,允许相似性比较和聚类分析。
推理 是指使用经过训练的模型基于新输入数据生成预测或输出的过程。 在语言模型中,推理涉及完成文本、回答问题或生成摘要等任务。
语言模型 是经过训练以理解、生成和处理人类语言的 AI 系统。 它们基于输入预测文本,从而启用文本生成、翻译、汇总和问答等任务。 示例包括 GPT、Phi 和 Mistral。
模型参数 控制语言模型如何生成文本,例如响应的创造力、多样性和焦点。 常见参数包括温度和 Top-p。 模型参数不会影响检索哪些文档,只影响模型生成其响应的方式。 有关详细信息,请参阅 Edge RAG 中的搜索类型参数。
查询 是提供给语言模型的输入,用于引发响应或执行特定任务。 它可以是一个问题、提示或一组说明,具体取决于用例。
检索扩充生成(RAG) 将检索系统与生成语言模型相结合,以生成由外部知识扩充的响应。 它从数据库或文档存储中检索相关上下文,以提升模型的生成能力,确保信息的准确性和时效性。
搜索参数 是控制 Edge RAG 在将文档传递到语言模型之前如何从索引数据检索、筛选和排名文档的设置。 这些参数可帮助你微调用于回答用户查询的信息的相关性、精度和范围。 有关详细信息,请参阅 Edge RAG 中的搜索类型参数。
搜索类型:搜索类型是 Edge RAG 用于从索引数据中查找和排名信息的方法。 它确定系统如何检索相关内容来回答用户问题,例如匹配关键字、使用语义相似性或组合多种方法。 Edge RAG 支持多种搜索方法来检索信息,包括深度搜索、全文搜索、混合搜索、混合多模式搜索和矢量搜索。 有关详细信息,请参阅 Edge RAG 中的搜索类型。
系统提示 是对话或任务开始时提供给语言模型以影响其行为的预定义指令或消息。 这些提示定义模型的角色、语气或任务特定的上下文。 例如,“你是一个有用的助手”或“提供简洁的技术说明”。通过调整初始上下文,系统提示可确保模型生成与所需目标或角色相符的响应。
矢量数据库 是用于存储矢量嵌入的专用数据库。 它旨在处理高维向量,并支持快速且可缩放的相似性搜索。
矢量化 意味着使用句子转换器等嵌入模型将文本转换为数字表示形式或嵌入。 这些嵌入内容捕获文本的语义含义,从而实现高效和准确的比较。
与 Azure AI 服务进行比较
Edge RAG 在公有云外部的客户基础结构上运行,允许客户使用“检索扩充生成”(RAG)搜索其本地数据。 数据平面(包括所有客户数据和语言模型)托管在本地。
相比之下,Azure AI 搜索和 Azure AI Foundry 等 Azure AI 服务还提供 RAG 功能,但托管在超大规模云区域中,要求客户将其数据和应用程序引入 Azure 基础结构。
Edge RAG 提供符合 Azure AI Foundry 体验的本地开发人员 UI 体验。
本地数据与云
Edge RAG 仅将系统元数据和组织可识别的信息(如订阅 ID 和群集名称)发送到Microsoft。 所有客户内容始终保留在客户定义的网络边界内的本地基础结构中。
用户角色
Edge RAG 解决方案具有三个不同的用户角色:
- 扩展的生命周期管理:用户负责管理 Edge RAG Arc 扩展的生命周期。 这包括设置必要的基础结构、部署扩展、执行更新、监视其性能以及处理最终删除等任务。 通常情况下,这些责任由有权访问底层 Azure 本地基础架构和 Azure 本地 Kubernetes (AKS) 基础架构的 IT 管理员承担。
- 聊天终结点的开发和评估:此工作流中的用户职责包括提供数据源、自定义 RAG 管道设置、提供自定义系统提示、评估、监视和更新聊天解决方案。 此角色通常由提示工程师或 AI 应用程序开发人员执行。
- 使用终结点查询本地数据:此工作流中的用户职责可能包括将聊天终结点集成到业务线应用程序中,以及使用聊天界面、自定义或现成提供的聊天接口来查询本地数据。