获取对象检测见解

本文介绍如何获取 Azure AI 视频索引器对象检测见解。对象检测是检测和跟踪视频中的对象的一项功能。它可用于查找汽车、手提包、背包和笔记本电脑等对象。

支持的对象

飞机
苹果
背包
香蕉
棒球手套
床
板凳
自行车
船只
书
瓶
碗
西兰花
公交车
蛋糕

汽车
胡萝卜
手机
椅子
时钟
计算机鼠标
沙发
杯子
餐桌
甜甜圈
消防栓
叉
飞盘

电吹风
手提包
热狗
键盘
风筝
刀
笔记本
微波
摩托车
计算机鼠标
领带
橙
烤箱
停车计时器
比萨饼
盆栽植物

三明治
剪刀
水槽
滑板
滑雪板
滑雪板
勺子
运动球
停车标志
行李箱
冲浪板
玩具熊

网球拍
多士炉
厕所
牙刷
交通灯
火车
雨伞
花瓶
酒杯

使用 Web 门户查看见解 JSON

上传视频并编制索引后，请从 Web 门户下载 JSON 格式的见解。

选择“ 库 ”选项卡。
选择所需的媒体。
选择“下载”，然后选择“见解”（JSON）。 JSON 文件将在新的浏览器选项卡中打开。
查找示例响应中所述的密钥对。

使用 API

使用 “获取视频索引” 请求。通过 &includeSummarizedInsights=false。
查找示例响应中所述的密钥对。

示例响应

检测和跟踪的对象出现在下载的 detectedObjects 文件的下。每次检测到唯一对象时，都会向该对象提供 ID。该对象也会被跟踪，这意味着模型会监视检测到的对象是否会重新出现在画面中。如果这样做，则会将另一个实例添加到具有不同开始和结束时间的对象实例中。

在此示例中，检测到第一辆车，并给出 ID 为 1，因为它也是检测到的第一个对象。然后，检测到一辆不同的车辆，并被赋予了 ID 23，因为它是检测到的第 23 个对象。后来，第一辆车再次出现，一个新实例被添加到 JSON 中。下面是生成的 JSON：

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]

密钥	定义
身份证件	在媒体文件中检测到的对象的增量 ID 数
类型	对象类型，例如汽车
缩略图ID	表示对象的单次检测的 GUID
显示名称	要显示在 VI 门户体验中的名称
WikiData识别号	WikiData 结构中的唯一标识符
实例	跟踪的所有实例的列表
置信度	0-1 之间的分数，指示对象检测置信度
调整开始	使用编辑器时调整了视频的开始时间
调整结束	使用编辑器时调整了视频的结束时间
开始	对象出现在框架中的时间
结束	对象不再出现在帧中的时间

组件

没有为对象检测定义任何组件。

透明度说明

重要

阅读所有 VI 功能的透明度说明概述。每个见解也有其自己的透明度说明。

对于标准和高级处理，每帧最多会经历 20 次检测，每个类最多有 35 次跟踪。
对象大小不应大于帧的 90%。可能无法识别持续占据大部分帧的大型对象。
小型或模糊对象可能难以检测。他们要么被遗漏，要么被错误分类（酒杯，杯子）。
可能无法识别短暂出现在少数几个帧中的对象。
可能影响物体检测准确性的其他因素包括低光条件、相机运动和遮挡。
Azure AI 视频索引器仅支持实际对象。不支持动画或 CGI。计算机生成的图形（如新闻贴纸）可能会产生奇怪的结果。
活页夹、小册子和其他书面材料往往被检测为 Book。

代码示例

查看所有 VI 示例

反馈

此页面是否有帮助？

Last updated on 2025-10-06