除了使用 自定义模型外,文档处理还提供预生成模型,可帮助自动从文档提取信息,无需训练。 这些模型随时可供使用,设计用于识别常见文档类型和数据模式,因此你可以快速入门并高效地进行缩放。
注意
Microsoft尊重用于训练和处理模型的数据的隐私和所有权。 Microsoft使用或传输任何组织数据来训练 AI 模型、大语言模型或任何其他模型。 数据安全地保留在组织的租户中。 有关详细信息,请参阅 Microsoft数据保护和隐私。
预生成模型简介
预生成文档处理使用已配置为识别常见文档类型和提取结构化信息的预训练模型。 可以从预生成模型开始,并通过添加特定于组织需求的字段来定制该模型,而不是从头开始构建自定义模型。
这些模型将光学字符识别 (OCR) 与深度学习相结合,以识别和提取预定义的文本和数据字段。 若要开始,请使用预生成模型分析示例文件。 然后,选择与方案相关的字段。 如果模型未检测到所需的字段,请尝试分析其他文件。
与其他模型一样,预生成模型是在 内容中心中创建和管理的。 将模型应用于 SharePoint 文档库时,该模型会链接到内容类型,并包含用于存储提取信息的列。
发布模型后,使用内容中心将其应用于您有权访问的任何 SharePoint 文档库。
可用的预生成模型
目前,有五种预生成处理模型可用: 合同、 发票、 收据、 敏感信息和 简单文档。
合同。 预生成 合同处理模型 从合同文档分析和提取关键信息。 API 以各种格式分析合同,并提取关键合同信息,例如客户端名称和地址、合同持续时间和续订日期。
发票。 发票处理模型从销售发票中分析和提取关键信息。 API 以各种格式分析发票,并 提取关键发票信息 ,例如客户名称、帐单邮寄地址、截止日期和应付金额。
收据。 收据处理模型从销售收据中分析和提取关键信息。 API 分析打印的收据和手写收据,并 提取关键收据信息 ,例如商家名称、商家电话号码、交易日期、税款和交易总额。
敏感信息。 敏感信息模型分析、检测和提取文档中的关键信息。 API 以各种格式分析文档, 并检测和提取关键敏感信息,例如个人和财务标识号、物理地址和电子邮件地址以及电话号码。
简单文档。 简单的文档处理模型提供了一个灵活的预训练解决方案,用于从基本结构化文档中提取键值对、选择标记和命名实体。 此模型还支持条形码和语言检测。
将来的版本中将提供其他预生成模型。
要求和限制
有关选择此模型时要考虑的要求的信息,请参阅 预生成文档处理的要求和限制。