你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

从非结构化内容中提取和映射信息

Azure AI 服务
Azure Cosmos DB
Azure 容器应用
Azure AI Foundry

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

此体系结构介绍内容处理解决方案,该解决方案使用置信度评分和用户验证跨多模式内容提取数据和应用架构。 它通过从非结构化内容中提取信息并将其映射到结构化格式来处理声明、发票、合同和其他文档。 此体系结构应用 Azure AI Foundry、Azure AI 内容理解、Azure AI Foundry 模型中的 Azure OpenAI 和其他 Azure 服务,通过事件驱动的处理管道转换大量非结构化内容。

此体系结构演示如何生成可缩放的系统来处理内容。 系统处理文本、图像、表格和图形,并包括针对业务文档工作流的自动质量检查和人工评审。

建筑

显示典型内容处理体系结构的关系图。

下载此体系结构的 Visio 文件

Workflow

以下工作流与上图相对应:

  1. 用户通过 Web 前端界面上传多模式内容,如文档、图像、合同和发票。 内容通过特定的处理要求和目标架构提交。

  2. Azure 容器应用网站接收内容上传请求,并调用容器应用中托管的处理 API。 这两个组件都是针对此方案定制的自定义编码解决方案。 API 选择适当的处理管道并启动内容分析工作流。

  3. 容器应用管理处理工作流。 它连接内容理解,该理解执行光学字符识别(OCR)并提取文本,并在 Foundry 模型中使用 Azure OpenAI。 这些模型映射架构并将提取的数据转换为结构化格式。

  4. 内容理解执行基于机器学习的 OCR,以便从各种内容格式(包括图像、表和图形)中高效提取文本。

  5. 使用 GPT 视觉的 Foundry 模型中的 Azure OpenAI 处理提取的内容,将其映射到自定义架构或行业定义的架构,并生成具有置信度评分的结构化 JSON 输出。

  6. 容器应用中的业务流程代码存储已处理的结果、置信度分数、架构映射和历史处理数据,以便在 Azure Cosmos DB 中实现审核线索和持续改进。

  7. 容器应用中的业务流程代码使用 Azure Blob 存储来存储源文档、中间处理项目和最终结构化输出,以实现可靠的数据持久性和检索。

  8. Azure 队列存储管理此解决方案服务之间的事件驱动处理工作流。 此管理可确保跨管道组件进行可靠的消息处理和处理协调。

  9. 内容处理器监视器网站通过 Web 界面向用户显示已处理的结果。 用户可以查看结构化 JSON 输出,更正任何不准确之处,添加上下文或反馈的注释,并将最终验证的结果保存到系统。

  10. 内容处理器监视网站将处理指标和用户反馈数据直接馈送到 Power BI 仪表板中。 Azure Cosmos DB 中存储的已处理数据和元数据对内容处理管道提供全面的分析。 这些见解包括 KPI、成功率、文档类型分布、置信度分数趋势、用户更正模式和其他支持内容处理管道数据驱动优化的作指标。

组件

  • 容器应用 是一个无服务器容器平台,可用于在无服务器平台上运行微服务和容器化应用程序。 在此体系结构中,容器应用托管处理管道 API,用于协调内容分析、AI 服务之间的坐标以及管理提取和转换工作流。 运行的代码由软件工程团队进行自定义编码。

  • Azure AI Foundry 是一项托管 AI 服务,提供对高级语言模型的访问权限,以便进行自然语言处理和生成。 在此体系结构中,Azure AI Foundry 为部署和管理内容处理管道中使用的 AI 模型提供了基础,并且是连接 AI 服务的网关,如内容理解。

    • Foundry 模型中的 Azure OpenAI 是 Azure AI Foundry 的一个组件,提供语言模型,包括 GPT-4o 和 GPT-4o mini。 在此体系结构中,模型托管为 Azure AI Foundry 中的服务。 这些模型执行基于架构的数据转换、将提取的内容映射到结构化格式,并计算提取准确性的置信度分数。

    • 内容理解 是一种多模式 AI 服务,用于分析各种媒体内容,例如音频、视频、文本和图像,并将其转换为结构化的可搜索数据。 在此体系结构中,内容理解准确地从多模式文档执行高级 OCR 和内容提取。

  • Azure Cosmos DB 是一种全球分布式多模型数据库服务,可提供保证的低延迟和弹性可伸缩性。 在此体系结构中,Azure Cosmos DB 存储已处理的结果、置信度分数、验证结果和历史处理数据,以便进行审核线索和性能优化。

  • Blob 存储 是Microsoft的对象存储解决方案,针对存储大量非结构化数据进行了优化。 在此体系结构中,Blob 存储维护源文档、中间处理项目以及具有可靠持久性和全局可访问性的最终结构化输出。

  • Azure 容器注册表 是一种托管的 Docker 注册表服务,用于存储和管理容器映像。 在此体系结构中,容器注册表管理处理管道组件的版本控制容器映像。 此系统可确保一致的部署和回滚功能。

  • Power BI 是软件服务、应用和连接器的集合,可协同工作,帮助你以最适合你和组织的方式创建、共享和使用业务见解。 在此体系结构中,Power BI 连接到 Azure Cosmos DB,并从监视 Web 应用程序接收实时处理指标,以全面分析文档处理性能、用户反馈模式和作 KPI。

方案详细信息

此内容处理解决方案解决了从组织每天接收的大量非结构化多模式内容中提取有意义的数据的挑战。 传统的手动处理文档(如合同、发票、声明和合规性报告)非常耗时、容易出错,并且无法随着业务的增长而缩放。 因此,组织面临不一致的数据质量、缺乏标准化和难以将提取的信息集成到下游业务流程中。

此解决方案使用高级 AI 服务从各种文档类型自动提取、转换和验证内容。 系统提供置信度评分,以便自动处理高置信度提取,同时标记低置信度结果进行人工评审。 此方法可确保速度和准确性,同时保持处理各种内容格式和自定义业务架构的灵活性。

可能的用例

金融服务处理

声明处理自动化: 使用自动验证和合规性检查从保险索赔文档、照片和调整器报表中提取政策详细信息、损害评估和成本估算。

发票和合同处理: 使用审批工作流的置信度评分,自动从发票和合同中提取供应商信息、行项、条款和条件,并将其映射到企业系统。

法规文档分析: 处理法规文件、合规性报告和审核文档,以提取关键指标,并确保遵守财务法规和报告要求。

医疗保健文档

临床文档处理: 从医疗记录、实验室报告和临床说明中提取患者信息、诊断、治疗计划和药物信息,以便进行电子健康记录集成。

医疗计费自动化: 处理医疗索赔、帐单和保险表单,以提取自动计费工作流的过程代码、患者详细信息和覆盖范围信息。

研究数据提取: 分析临床试验文档、研究论文和患者同意表单,以提取医学研究工作流的研究参数、结果和合规性数据。

协定分析和提取: 处理法律合同、协议和修订,以提取合同管理和合规性监视的关键条款、义务、日期和各方。

法律文档发现: 分析法律简报、证词和案件档案,提取诉讼支持和案件准备的相关事实、引文和证据。

合规性文档: 处理法规提交、审核报告和合规性证书,以提取治理工作流的要求、发现和纠正措施。

制造和供应链

质量文档处理: 从质量控制文档和证书中提取检查结果、测试数据和认证详细信息,以便进行合规性跟踪和流程改进。

供应商文档: 处理供应商认证、材料规范和发货文档,以提取采购工作流的合规性数据和供应链信息。

维护记录分析: 从预测性维护和资产管理系统的技术文档中提取设备数据、维护计划和修复历史记录。

替代方案

此体系结构包括多个组件,这些组件可以替换为其他 Azure 服务或方法,具体取决于工作负荷的功能和非功能要求。 请考虑以下替代方案和权衡。

内容提取方法

当前方法: 此解决方案将内容理解用于高级 OCR 和内容提取,并结合 Azure OpenAI 进行架构映射和转换。 此方法为具有灵活架构自定义的复杂多模式内容提供了很高的准确度。

替代方法: 使用 Azure AI 文档智能对常见文档类型(如发票、收据和表单)使用预生成模型来处理文档。 此方法为标准文档类型提供更快的实现,但自定义架构的灵活性较低。

如果工作负荷具有以下特征,请考虑此替代方法:

  • 你主要处理具有定义良好的格式的标准文档类型。

  • 使用预生成的提取模型,需要更快的上市时间。

  • 架构要求符合标准文档智能模型。

  • 架构映射的自定义开发资源有限。

处理业务流程

当前方法: 此解决方案使用容器应用托管用于协调内容分析管道的自定义处理逻辑。 此方法提供对处理工作流、错误处理和自定义业务逻辑集成的最大控制。

替代方法: 将 Azure 逻辑应用或 Azure Functions 用于将内置连接器与 AI 服务的工作流业务流程配合使用。 此方法提供视觉工作流设计和托管服务优势,但对处理逻辑的控制较少。

如果工作负荷具有以下特征,请考虑此替代方法:

  • 你更喜欢视觉工作流设计而不是自定义代码开发。

  • 处理工作流相对简单,使用标准条件逻辑。

  • 你希望最大程度地减少基础结构管理开销。

  • 你的团队在低代码和无代码解决方案方面拥有比容器化应用程序更多的专业知识。

成本优化

成本优化侧重于减少不必要的开支和提高运营效率的方法。 有关详细信息,请参阅成本优化设计评审核对清单

有关运行此方案的成本的详细信息,请参阅 Azure 定价计算器中的预配置估算值。

定价因区域和使用情况而异,因此无法预测部署的确切成本。 此基础结构中使用的大多数 Azure 资源都遵循基于使用情况的定价层。 但是,容器注册表每天为每个注册表产生固定成本。

部署此方案

若要部署此体系结构的实现,请遵循 GitHub 存储库中的步骤。

供稿人

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤