本文介绍如何获取 Azure AI 视频索引器对象检测见解。 对象检测是检测和跟踪视频中的对象的一项功能。 它可用于查找汽车、手提包、背包和笔记本电脑等对象。
支持的对象
- 飞机
- 苹果
- 背包
- 香蕉
- 棒球手套
- 床
- 板凳
- 自行车
- 船只
- 书
- 瓶
- 碗
- 西兰花
- 公交车
- 蛋糕
- 汽车
- 胡萝卜
- 手机
- 椅子
- 时钟
- 计算机鼠标
- 沙发
- 杯子
- 餐桌
- 甜甜圈
- 消防栓
- 叉
- 飞盘
- 电吹风
- 手提包
- 热狗
- 键盘
- 风筝
- 刀
- 笔记本
- 微波
- 摩托车
- 计算机鼠标
- 领带
- 橙
- 烤箱
- 停车计时器
- 比萨饼
- 盆栽植物
- 三明治
- 剪刀
- 水槽
- 滑板
- 滑雪板
- 滑雪板
- 勺子
- 运动球
- 停车标志
- 行李箱
- 冲浪板
- 玩具熊
- 网球拍
- 多士炉
- 厕所
- 牙刷
- 交通灯
- 火车
- 雨伞
- 花瓶
- 酒杯
使用 Web 门户查看见解 JSON
上传视频并编制索引后,请从 Web 门户下载 JSON 格式的见解。
- 选择“ 库 ”选项卡。
- 选择所需的媒体。
- 选择“下载”,然后选择“见解”(JSON)。 JSON 文件将在新的浏览器选项卡中打开。
- 查找示例响应中所述的密钥对。
使用 API
- 使用 “获取视频索引” 请求。 通过
&includeSummarizedInsights=false。 - 查找示例响应中所述的密钥对。
示例响应
检测和跟踪的对象出现在下载的 detectedObjects 文件的 下。 每次检测到唯一对象时,都会向该对象提供 ID。 该对象也会被跟踪,这意味着模型会监视检测到的对象是否会重新出现在画面中。 如果这样做,则会将另一个实例添加到具有不同开始和结束时间的对象实例中。
在此示例中,检测到第一辆车,并给出 ID 为 1,因为它也是检测到的第一个对象。 然后,检测到一辆不同的车辆,并被赋予了 ID 23,因为它是检测到的第 23 个对象。 后来,第一辆车再次出现,一个新实例被添加到 JSON 中。 下面是生成的 JSON:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
| 密钥 | 定义 |
|---|---|
| 身份证件 | 在媒体文件中检测到的对象的增量 ID 数 |
| 类型 | 对象类型,例如汽车 |
| 缩略图ID | 表示对象的单次检测的 GUID |
| 显示名称 | 要显示在 VI 门户体验中的名称 |
| WikiData识别号 | WikiData 结构中的唯一标识符 |
| 实例 | 跟踪的所有实例的列表 |
| 置信度 | 0-1 之间的分数,指示对象检测置信度 |
| 调整开始 | 使用编辑器时调整了视频的开始时间 |
| 调整结束 | 使用编辑器时调整了视频的结束时间 |
| 开始 | 对象出现在框架中的时间 |
| 结束 | 对象不再出现在帧中的时间 |
组件
没有为对象检测定义任何组件。
透明度说明
重要
阅读所有 VI 功能的 透明度说明概述 。 每个见解也有其自己的透明度说明。
- 对于标准和高级处理,每帧最多会经历 20 次检测,每个类最多有 35 次跟踪。
- 对象大小不应大于帧的 90%。 可能无法识别持续占据大部分帧的大型对象。
- 小型或模糊对象可能难以检测。 他们要么被遗漏,要么被错误分类(酒杯,杯子)。
- 可能无法识别短暂出现在少数几个帧中的对象。
- 可能影响物体检测准确性的其他因素包括低光条件、相机运动和遮挡。
- Azure AI 视频索引器仅支持实际对象。 不支持动画或 CGI。 计算机生成的图形(如新闻贴纸)可能会产生奇怪的结果。
- 活页夹、小册子和其他书面材料往往被检测为
Book。