计算机视觉
注释
有关更多详细信息,请参阅 “文本和图像 ”选项卡!
计算机视觉 是人工智能领域,用于分析视觉输入;例如照片、视频和实时相机源。 计算机视觉通过使用大量的图像来训练模型来实现。
计算机视觉模型有多种类型。
- 图像分类 是计算机视觉的一种形式,其中模型使用带有图像主主题标签的图像(换句话说,图像中是什么)进行训练,以便它可以分析未标记的图像并预测最合适的标签——识别图像的主题。
- 对象检测 是计算机视觉的一种形式,在该视觉中训练模型以识别图像中特定对象的位置。
- 语义分段 是对象检测的高级形式,在对象周围绘制框而不是指示对象的位置时,模型可以识别属于特定对象的图像中的单个像素。
- 多模式 模型结合了视觉特征和关联的文本说明,使它们能够生成图像的综合说明。
计算机视觉场景
计算机视觉的常见用途包括:
- 可以解释视觉输入的 Ai 代理。
- 为照片自动生成标题或标签。
- 视觉搜索。
- 在零售场景中监控库存水平或识别需要结账的商品。
- 安全视频监视。
- 通过面部识别进行身份验证。
- 机器人和自动驾驶汽车。