你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
利用内容理解工作室,可以构建功能强大的内容分析器,以提取根据特定需求定制的内容和字段。 按照以下步骤在内容理解工作室中创建自己的自定义分析器。
先决条件
要开始使用,请确保你拥有以下资源和权限:
- 一份 Azure 订阅。 如果还没有 Azure 订阅,可以创建一个免费帐户。
- 拥有 Azure 订阅后,请在 Azure 门户中创建 Microsoft Foundry 资源 。 请务必在 受支持的区域中创建它。
- 此资源在门户中的“Foundry”>“Foundry”下列出。
- 为内容理解资源设置默认模型部署。 默认设置将创建与用于内容理解请求的 Foundry 模型的连接。 选择下列方法之一:
登录到内容理解工作室
转到 Content Understanding Studio 门户 ,使用凭据登录以开始使用。 您可能在 Foundry Tools Studio 的体验中熟悉经典的 Azure 文档智能,内容理解在您熟悉的文档智能基础上扩展了内容和字段提取,可应用于所有模式,包括文档、图像、视频和音频。 选择此选项可以试用新的内容理解体验,以获取服务的所有多模式功能。
创建自定义分析器
从新项目开始:若要开始创建自定义分析器,请在主页上选择
Create project。选择项目类型:在本指南中,我们将选择选项
Extract content and fields with a custom schema。 若要详细了解如何对数据进行分类和路由,请查看 如何使用内容理解对数据进行分类和路由。创建项目:为项目提供友好名称并选择
Create。上传示例数据:现在已配置项目,可以开始生成自定义分析器。 将数据示例上传到该工具,内容理解会对数据进行分类,并推荐分析器模板来提供起点。
选择方案模板:选择最符合方案需求的模板。 可以选择在下一步中根据特定需求自定义所有架构字段。
利用建议字段:如果方案需要自定义字段,则可利用 AI 建议功能来分析数据,并建议一个包含你可能有兴趣提取的字段的完整架构。 借助该工具,可以保留适合并丢弃不合适的建议。
定义架构:查看建议或属于模板的架构字段。 如果要添加或更改其他字段,则可以利用编辑功能来优化架构字段。 请注意,在测试和生成初始分析器后,可以轻松返回优化架构。 完成更改后,选择
Save。测试架构:准备好测试架构后,选择
run analysis以查看数据上架构的输出。 可以选择上传用于测试的其他示例数据片段,以查看架构的执行方式。迭代您的架构:重复步骤 6-8,以提高架构的输出。
可选步骤:上下文中学习(仅文档):若要进一步提高架构输出的质量,可以选择启用上下文内学习。 此步骤使你能够引入模型引用和学习的知识库。
若要开始,需要将训练数据上传到 Blob 存储帐户。 选择“知识”选项卡,然后选择包含示例文档训练数据集的 Blob 存储容器。 根据刚刚定义的分析器,模型会将标签分配给文档。 通过查看和更正提供错误输出的任何标签或添加任何缺失的输出来验证训练数据。
生成分析器:对分析器的输出感到满意后,请选择
Build analyzer页面顶部的按钮。 为分析器命名并选择Build。使用分析器:成功生成分析器后,可以选择
Jump to analyzer list查看所有生成的分析器的完整列表。 选择刚刚创建的分析器,可以看到包含密钥和终结点的代码示例,可供入门。 现在,你有一个分析器终结点,可以通过 REST API 在自己的应用程序中使用。 本演练介绍如何使用内容理解工作室生成自定义分析器。
后续步骤
- 了解如何 使用内容理解工作室对数据进行分类和路由
- 详细了解 Azure 内容理解的最佳做法