你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在内容理解工作室中创建和改进自定义分析器

利用内容理解工作室,可以构建功能强大的内容分析器,以提取根据特定需求定制的内容和字段。 按照以下步骤在内容理解工作室中创建自己的自定义分析器。

先决条件

要开始使用,请确保你拥有以下资源和权限:

  • 一份 Azure 订阅。 如果还没有 Azure 订阅,可以创建一个免费帐户
  • 拥有 Azure 订阅后,请在 Azure 门户中创建 Microsoft Foundry 资源 。 请务必在 受支持的区域中创建它。
    • 此资源在门户中的“Foundry”>“Foundry”下列出。
  • 为内容理解资源设置默认模型部署。 默认设置将创建与用于内容理解请求的 Foundry 模型的连接。 选择下列方法之一:
    1. 转到 “内容理解设置”页
    2. 选择左上角的“+ 添加资源”按钮
    3. 选择要使用的 Foundry 资源,然后单击“下一步”,然后单击“保存”
      • 选中“如果没有可用的默认值,请确保为所需模型启用自动部署”。 确保资源已用所需的 GPT-4.1、GPT-4.1-mini 和 text-embedding-3-large 型模进行完整设置。 不同的预生成分析器需要不同的模型。
    通过执行这些步骤,可以在 Foundry 资源中设置内容理解模型和 Foundry 模型之间的连接。

登录到内容理解工作室

转到 Content Understanding Studio 门户 ,使用凭据登录以开始使用。 您可能在 Foundry Tools Studio 的体验中熟悉经典的 Azure 文档智能,内容理解在您熟悉的文档智能基础上扩展了内容和字段提取,可应用于所有模式,包括文档、图像、视频和音频。 选择此选项可以试用新的内容理解体验,以获取服务的所有多模式功能。

创建自定义分析器

  1. 从新项目开始:若要开始创建自定义分析器,请在主页上选择 Create project

  2. 选择项目类型:在本指南中,我们将选择选项 Extract content and fields with a custom schema。 若要详细了解如何对数据进行分类和路由,请查看 如何使用内容理解对数据进行分类和路由

  3. 创建项目:为项目提供友好名称并选择 Create

  4. 上传示例数据:现在已配置项目,可以开始生成自定义分析器。 将数据示例上传到该工具,内容理解会对数据进行分类,并推荐分析器模板来提供起点。

建议的内容理解模板的屏幕截图。

  1. 选择方案模板:选择最符合方案需求的模板。 可以选择在下一步中根据特定需求自定义所有架构字段。

  2. 利用建议字段:如果方案需要自定义字段,则可利用 AI 建议功能来分析数据,并建议一个包含你可能有兴趣提取的字段的完整架构。 借助该工具,可以保留适合并丢弃不合适的建议。

使用 AI 建议工具的建议架构的屏幕截图。

  1. 定义架构:查看建议或属于模板的架构字段。 如果要添加或更改其他字段,则可以利用编辑功能来优化架构字段。 请注意,在测试和生成初始分析器后,可以轻松返回优化架构。 完成更改后,选择 Save

  2. 测试架构:准备好测试架构后,选择 run analysis 以查看数据上架构的输出。 可以选择上传用于测试的其他示例数据片段,以查看架构的执行方式。

  3. 迭代您的架构:重复步骤 6-8,以提高架构的输出。

  4. 可选步骤:上下文中学习(仅文档):若要进一步提高架构输出的质量,可以选择启用上下文内学习。 此步骤使你能够引入模型引用和学习的知识库。

若要开始,需要将训练数据上传到 Blob 存储帐户。 选择“知识”选项卡,然后选择包含示例文档训练数据集的 Blob 存储容器。 根据刚刚定义的分析器,模型会将标签分配给文档。 通过查看和更正提供错误输出的任何标签或添加任何缺失的输出来验证训练数据。

  1. 生成分析器:对分析器的输出感到满意后,请选择 Build analyzer 页面顶部的按钮。 为分析器命名并选择 Build

  2. 使用分析器:成功生成分析器后,可以选择 Jump to analyzer list 查看所有生成的分析器的完整列表。 选择刚刚创建的分析器,可以看到包含密钥和终结点的代码示例,可供入门。 现在,你有一个分析器终结点,可以通过 REST API 在自己的应用程序中使用。 本演练介绍如何使用内容理解工作室生成自定义分析器。

后续步骤