你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Edge RAG 提供了一个高级数据分析选项,它通过捕获结构、表和图像来帮助你从文档中提取更多价值,以获取更准确、更丰富的上下文搜索和聊天体验。 本文介绍高级数据分析在 Edge RAG 中的工作原理、何时使用它,以及它如何帮助你充分利用数据。
重要
由 Azure Arc 启用的 Edge RAG 预览版目前为预览版。 有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款,请参阅 适用于 Microsoft azure 预览版的补充使用条款 。
关键功能
高级数据分析提供基本分析的多项增强功能。 以下列表总结了主要优势:
- 增强的文档理解:为更丰富的上下文提取标题、表格、图像和格式。
- 高级分块:将文本拆分为有意义的节,保留上下文和文档层次结构。
- 丰富的元数据:捕获段落标题、页码和其他结构详细信息。
- 智能表格处理:检测、合并、索引表格,甚至处理跨多个页面的表格。
- 改进了检索准确性:启用更相关的精确搜索结果。
何时使用高级分析
选择高级解析当文档包含如下内容时:
- 对于用例而言非常重要的表、图表或图像。
- 复杂的结构,如报表、科学论文或财务表。
- 需要精确搜索、筛选或归属(如页码或分区标题)。
如果只需要快速提取自由格式的文本,基本分析可能就足够了。
高级分析的工作原理
高级分析将分析文档以识别和保留结构,包括:
- 标题、段落、列表和层次结构。
- 表和图像。
- 多种文件格式,包括 PDF、Word、PowerPoint、HTML、Markdown 和常见图像类型。
文本被分割成与自然边界对齐的上下文感知区块,如句子或章节。 每个区块包括标题和页码等元数据,使跟踪信息回源变得更加容易。
支持的文件格式
高级分析支持以下文件类型:
- .txt (文本文件)
- .pdf (PDF 文档)
- .docx(Microsoft Word 文档)
- .pptx(Microsoft PowerPoint 演示文稿)
- .html (HTML 文档)
- .md (Markdown 文件)
- .png、.jpg、.jpeg(图像)
文本分块和元数据
高级分析使用高级分块来创建语义有意义的部分,而不是简单的基于字符的拆分。 每个区块包括标题、页码和唯一区块 ID 等元数据。 表区块包括更多详细信息,如表索引、形状和内容的预览。 此方法有助于保留上下文并提高检索相关性。
表格提取与处理
高级分析会自动检测所有页面中的表,包括扫描文档中的表。 它合并跨多个页面的表、还原列标题并确保列结构一致。 每个表区块包括表索引、形状、页码、节标题和表格预览等元数据。 此信息使表在完整上下文中可搜索和检索。
图像提取和处理
高级分析会自动检测所有页面中的图像。 每个图像均以完整质量存储,并附带源页码。 此信息允许在推理期间提供完整的质量图像显示和源页面上下文。
高级分析如何改进结果
高级分析直接提高了检索扩充生成(RAG)响应的质量。 它可帮助你获得更好的上下文检索、增强的表理解和改进的准确性。 例如,标题信息有助于快速识别相关部分,页码允许精确的源归属。 语义区块与查询意向保持一致,有关表格数据的结构化查询更准确。 这些改进可帮助你向用户提供更准确且更可信的结果。
从基本分析迁移到高级分析
如果要从基本分析切换到高级分析,请执行以下步骤:
- 通过删除现有的引入文档并在引入作业配置中选择“高级”模式来更新配置。
- 重新导入文档。 应重新引入以基本模式处理的文档,以利用更丰富的区块和元数据。 在迁移期间,历史数据仍可访问。
- 使用示例查询测试检索质量、检查表提取以及确认页码和标题是否出现在结果中来验证结果。
性能注意事项
高级分析比基本分析花费更多时间,尤其是对于大型文档。 它还存储每个区块的更多元数据,这可能会增加存储要求。 但是,提高的准确性和上下文通常超过了额外的处理时间和存储需求。
最佳做法
若要从高级分析中获得最佳结果,请遵循以下建议:
- 尽可能使用本机数字格式(如具有可选文本的 PDF)。
- 确保表格式正确且一致。
- 使用清晰、一致的标题来帮助分析器识别文档结构。
在引入之前查看文档,确保它们符合这些准则。
Troubleshooting
如果注意到缺少或不完整的表,请检查源文档的结构合理且清晰。 对于意外的结果,请查看元数据和区块详细信息,以验证是否已捕获标题和页码。 如果引入失败,请尝试简化文档或将其拆分为较小的部分。