你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Foundry 工具中的 Azure 视觉图像分析工具可以从图像中提取各种视觉特征。 例如,该服务可以确定图像是否包含成人内容、查找特定的品牌或对象,或查找人脸。
最新版本的图像分析(4.0 现已正式发布)具有同步 OCR 和人员检测等新功能。 请继续使用此版本。
你可以通过客户端库 SDK,或者直接调用 REST API 使用图像分析。 按快速入门的说明开始操作。
或者,可以使用 Vision Studio 在浏览器中快速轻松地试用图像分析的功能。
本文档包含以下类型的文章:
如果需要更加结构化的方法,请遵循适用于图像分析的训练模块。
图像分析版本
Important
选择最符合要求的图像分析 API 版本。
| Version | 可用的功能 | Recommendation |
|---|---|---|
| 4.0 版 | 阅读文本、辅助字幕、密集字幕、标记、对象检测、人员、智能裁剪 | 更出色的模型;如果版本 4.0 支持你的用例,请使用该版本。 |
| 版本 3.2 | 标记, 物体, 说明, 品牌, 人脸, 图像类型, 配色方案, 地标, 名人, 成人内容, 智能裁剪 | 更广泛的功能;如果版本 4.0 尚不支持你的用例,请使用版本 3.2 |
如果图像分析 4.0 API 支持你的用例,我们建议使用该版本。 如果版本 4.0 尚不支持你的用例,请使用版本 3.2。
如果想要进行图像文字描述,并且视觉资源在受支持的 Azure 区域之外,则还需要使用版本 3.2。 图像分析 4.0 中的图像描述文字功能仅适用于某些 Azure 区域。 版本 3.2 中的图像说明在所有 Azure 视觉区域中都可用。 请参阅区域可用性。
分析图像
可以分析图像以获取有关其视觉特征和特征的见解。 分析图像 API 提供此表中的所有功能。 若要开始,请遵循 快速入门。
| Name | Description | 概念页 |
|---|---|---|
| 模型自定义(仅限 4.0 预览版,已弃用) | 创建和训练用于图像分类或对象检测的自定义模型。 请自带图像,并为这些图像添加自定义标记。图像分析将会训练出一个为你的用例量身定制的模型。 | 模型自定义 |
| 从图像读取文本(仅限 v4.0) | 图像分析 4.0 预览版可从图像中提取可读文本。 与异步计算机视觉 3.2 读取 API 相比,新版本作为性能增强的统一同步 API 提供了熟悉的读取 OCR 引擎,这样便可通过单个 API 调用轻松获取 OCR 和其他见解。 | 图像识别 |
| 检测图像中的人物(仅限 v4.0) | 图像分析版本 4.0 提供检测图像中人员的功能。 API 返回每个检测到的人的边界框坐标以及置信度分数。 | 人物检测 |
| 生成图像描述文字 | 以人类能够读懂的语言生成图像的描述文字,并采用完整句子的形式。 计算机视觉的算法将根据在图像中识别的物体生成各种描述文字。 版本 4.0 的图像描述文字生成模型是一种更高级的实现,适用于更广泛的输入图像。 它仅在某些地理区域中可用。 请参阅区域可用性。 版本 4.0 还允许使用密集描述文字生成,可为图像中的各个物体生成详细的描述文字。 该 API 会返回图像中每个物体的边界框坐标(以像素为单位)以及一段描述文字。 你可以使用此功能生成有关图像各个部分的说明。
|
生成图像描述文字 (v3.2) (v4.0) |
| 检测物体 | 对象检测类似于添加标记,但 API 返回应用于每个标记的边框坐标。 例如,如果图像包含狗、猫和人员,“检测”作会将这些对象与图像中的坐标一起列出。 可以使用此功能进一步处理图像中各对象之间的关系。 当图像中有多个相同标记的实例时,还会通知你。
|
检测物体 (v3.2) (v4.0) |
| 标记视觉特征 | 根据数千个可识别对象、生物、风景和操作识别并标记图像中的视觉特征。 如果标记含混不清或不为人知,API 响应会提供提示,以阐明与标记相关的上下文。 标记并不局限于主体(如前景中的人员),还包括设置(室内或室外)、家具、工具、植物、动物、附件、小配件等。
|
标记视觉特性 (v3.2) (v4.0) |
| 获取感兴趣区域/智能裁剪 | 分析图像的内容以返回与指定纵横比匹配的感兴趣区域的坐标。 计算机视觉返回该区域的边框坐标,因此,进行调用的应用程序可以根据需要修改原始图像。 版本 4.0 的智能裁剪模型是一种更高级的实现,适用于更广泛的输入图像。 它仅在某些地理区域中可用。 请参阅区域可用性。 |
生成缩略图 (v3.2) (v4.0 预览版) |
| 检测品牌(仅限版本 3.2) | 根据一个包含数千全球徽标的数据库,确定图像或视频中的商业品牌。 可以使用此功能来执行特定的操作,例如,发现哪些品牌在社交媒体上最受欢迎,或者哪些品牌在媒体产品植入中最常见。 | 检测品牌 |
| 对图像进行分类(仅限版本 3.2) | 使用具有父/子遗传层次结构的类别分类对整个图像进行标识和分类。 类别可单独使用或与我们的新标记模型结合使用。 目前,英语是唯一可以对图像进行标记和分类的语言。 |
对图像分类 |
| 检测人脸(仅限版本 3.2) | 检测图像中的人脸,提供每个检测到的人脸的相关信息。 Azure Vision 返回每个检测到的人脸的坐标、矩形、性别和年龄。 还可以将专用人脸 API 用于这些目的。 它提供更详细的分析,如面部识别和姿势检测。 |
检测人脸 |
| 检测图像类型(仅限版本 3.2) | 检测图像特征,例如图像是否为素描,或者图像是剪贴画的可能性。 | 检测图像类型 |
| 检测特定领域的内容(仅限版本 3.2) | 使用域模型来检测和标识图像中特定领域的内容,例如名人和地标。 例如,如果图像包含人员,Azure 视觉可以使用名人的域模型来确定图像中检测到的人员是否为已知名人。 | 检测特定领域的内容 |
| 检测配色方案(仅限版本 3.2) | 分析图像中的颜色使用情况。 Azure 视觉可以确定图像是黑色还是白色,对于颜色图像,可以识别主要颜色和主题色。 | 检测颜色方案 |
| 审查图像中的内容(仅限版本 3.2) | 使用 Azure 视觉检测图像中的成人内容,并返回不同分类的置信度分数。 可以在滑尺上设置标记内容的阈值,以适应首选项。 | 检测成人内容 |
产品识别(仅限 v4.0 预览版,已弃用)
Important
此功能现已停用。 2025 年 3 月 31 日,Azure AI 图像分析 4.0 自定义图像分类、自定义对象检测和产品识别预览 API 已停用。 对这些服务的 API 调用将失败。
过渡到 Azure AI 自定义视觉,该视觉已正式发布。 自定义视觉可提供与这些即将停用的功能相似的功能。
借助产品识别 API,可以分析零售商店中货架的照片。 可以检测产品是否存在,并获取其边界框坐标。 将其与模型自定义结合使用,以训练模型来识别特定产品。 还可以将产品识别结果与商店的货架图文档进行比较。
多模式嵌入(仅限 v4.0)
多模式嵌入 API 支持对图像和文本查询进行矢量化。 它们将图像转换为多维矢量空间中的坐标。 然后,可以将传入的文本查询转换为矢量,并根据语义接近度将图像与文本匹配。 此功能允许使用文本搜索一组图像,而无需使用图像标记或其他元数据。 语义接近通常会在搜索中产生更好的结果。
该 2024-02-01 API 包含支持 102 种语言的文本搜索的多语言模型。 原始的仅限英语的模型仍然可用,但不能将其与同一搜索索引中的新模型合并。 如果使用仅限英语的模型对文本和图像进行矢量化,则这些向量与多语言文本和图像矢量不兼容。
这些 API 仅在某些地理区域中可用。 请参阅区域可用性。
背景移除(仅限 4.0 预览版)
Important
此功能现已停用。 2025 年 3 月 31 日,Azure AI 图像分析 4.0 分段 API 和背景消除服务已停用。 对这些服务的 API 调用将失败。
开源 Florence 2 模型的分割功能或许可以满足您的需求。 它返回一个标记前景和背景之间差异的 alpha 图,但不会编辑原始图像来移除背景。 安装 Florence 2 模型并试用其区域细分功能。
若要获得齐全的背景移除功能,请考虑使用第三方实用工具,例如 BiRefNet。
服务限制
输入要求
图像分析可以处理符合以下要求的图像:
- 图像必须采用 JPEG、PNG、GIF、BMP、WEBP、ICO、TIFF 或 MPO 格式
- 图像的文件大小必须不到 20 兆字节 (MB)
- 图像的尺寸必须大于 50 x 50 像素,小于 16,000 x 16,000 像素
Tip
多模式嵌入的输入要求不同,并列在 多模式嵌入中。
语言支持
不同的图像分析功能有不同的语言版本。 请参阅语言支持页面。
区域可用性
若要使用图像分析 API,必须在受支持的区域中在 Foundry Tools 资源中创建 Azure 视觉。 图像分析功能在以下区域中可用:
| Region | 分析图像 (减去 4.0 文字描述) |
分析图像 (包括 4.0 文字描述) |
产品识别 | 多模式嵌入 |
|---|---|---|---|---|
| 美国东部 | ✅ | ✅ | ✅ | ✅ |
| 美国西部 | ✅ | ✅ | ✅ | |
| 美国西部 2 | ✅ | ✅ | ✅ | |
| 法国中部 | ✅ | ✅ | ✅ | |
| 北欧 | ✅ | ✅ | ✅ | |
| 西欧 | ✅ | ✅ | ✅ | |
| 瑞典中部 | ✅ | ✅ | ||
| 瑞士北部 | ✅ | ✅ | ||
| Australia East | ✅ | ✅ | ||
| 东南亚 | ✅ | ✅ | ✅ | |
| 东亚 | ✅ | ✅ | ||
| 韩国中部 | ✅ | ✅ | ✅ | |
| 日本东部 | ✅ | ✅ |
数据隐私和安全性
与所有 Foundry 工具一样,使用 Azure 视觉服务的开发人员应了解Microsoft客户数据策略。 若要了解详细信息,请参阅Microsoft信任中心的 Foundry 工具页面 。
后续步骤
参阅适用于你的偏好开发语言和 API 版本的快速入门指南,开始使用图像分析: