你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Arc 启用的 Edge RAG 预览版的高级数据分析

Edge RAG 提供了一个高级数据分析选项,它通过捕获结构、表和图像来帮助你从文档中提取更多价值,以获取更准确、更丰富的上下文搜索和聊天体验。 本文介绍高级数据分析在 Edge RAG 中的工作原理、何时使用它,以及它如何帮助你充分利用数据。

重要

由 Azure Arc 启用的 Edge RAG 预览版目前为预览版。 有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款,请参阅 适用于 Microsoft azure 预览版的补充使用条款

关键功能

高级数据分析提供基本分析的多项增强功能。 以下列表总结了主要优势:

  • 增强的文档理解:为更丰富的上下文提取标题、表格、图像和格式。
  • 高级分块:将文本拆分为有意义的节,保留上下文和文档层次结构。
  • 丰富的元数据:捕获段落标题、页码和其他结构详细信息。
  • 智能表格处理:检测、合并、索引表格,甚至处理跨多个页面的表格。
  • 改进了检索准确性:启用更相关的精确搜索结果。

何时使用高级分析

选择高级解析当文档包含如下内容时:

  • 对于用例而言非常重要的表、图表或图像。
  • 复杂的结构,如报表、科学论文或财务表。
  • 需要精确搜索、筛选或归属(如页码或分区标题)。

如果只需要快速提取自由格式的文本,基本分析可能就足够了。

高级分析的工作原理

高级分析将分析文档以识别和保留结构,包括:

  • 标题、段落、列表和层次结构。
  • 表和图像。
  • 多种文件格式,包括 PDF、Word、PowerPoint、HTML、Markdown 和常见图像类型。

文本被分割成与自然边界对齐的上下文感知区块,如句子或章节。 每个区块包括标题和页码等元数据,使跟踪信息回源变得更加容易。

支持的文件格式

高级分析支持以下文件类型:

  • .txt (文本文件)
  • .pdf (PDF 文档)
  • .docx(Microsoft Word 文档)
  • .pptx(Microsoft PowerPoint 演示文稿)
  • .html (HTML 文档)
  • .md (Markdown 文件)
  • .png、.jpg、.jpeg(图像)

文本分块和元数据

高级分析使用高级分块来创建语义有意义的部分,而不是简单的基于字符的拆分。 每个区块包括标题、页码和唯一区块 ID 等元数据。 表区块包括更多详细信息,如表索引、形状和内容的预览。 此方法有助于保留上下文并提高检索相关性。

表格提取与处理

高级分析会自动检测所有页面中的表,包括扫描文档中的表。 它合并跨多个页面的表、还原列标题并确保列结构一致。 每个表区块包括表索引、形状、页码、节标题和表格预览等元数据。 此信息使表在完整上下文中可搜索和检索。

图像提取和处理

高级分析会自动检测所有页面中的图像。 每个图像均以完整质量存储,并附带源页码。 此信息允许在推理期间提供完整的质量图像显示和源页面上下文。

高级分析如何改进结果

高级分析直接提高了检索扩充生成(RAG)响应的质量。 它可帮助你获得更好的上下文检索、增强的表理解和改进的准确性。 例如,标题信息有助于快速识别相关部分,页码允许精确的源归属。 语义区块与查询意向保持一致,有关表格数据的结构化查询更准确。 这些改进可帮助你向用户提供更准确且更可信的结果。

从基本分析迁移到高级分析

如果要从基本分析切换到高级分析,请执行以下步骤:

  1. 通过删除现有的引入文档并在引入作业配置中选择“高级”模式来更新配置。
  2. 重新导入文档。 应重新引入以基本模式处理的文档,以利用更丰富的区块和元数据。 在迁移期间,历史数据仍可访问。
  3. 使用示例查询测试检索质量、检查表提取以及确认页码和标题是否出现在结果中来验证结果。

性能注意事项

高级分析比基本分析花费更多时间,尤其是对于大型文档。 它还存储每个区块的更多元数据,这可能会增加存储要求。 但是,提高的准确性和上下文通常超过了额外的处理时间和存储需求。

最佳做法

若要从高级分析中获得最佳结果,请遵循以下建议:

  • 尽可能使用本机数字格式(如具有可选文本的 PDF)。
  • 确保表格式正确且一致。
  • 使用清晰、一致的标题来帮助分析器识别文档结构。

在引入之前查看文档,确保它们符合这些准则。

Troubleshooting

如果注意到缺少或不完整的表,请检查源文档的结构合理且清晰。 对于意外的结果,请查看元数据和区块详细信息,以验证是否已捕获标题和页码。 如果引入失败,请尝试简化文档或将其拆分为较小的部分。