计算机视觉

已完成

注释

有关更多详细信息,请参阅 “文本和图像 ”选项卡!

计算机视觉 是人工智能领域,用于分析视觉输入;例如照片、视频和实时相机源。 计算机视觉通过使用大量的图像来训练模型来实现。

使用大量图像训练的计算机视觉模型示意图。

计算机视觉模型有多种类型。

  • 图像分类 是计算机视觉的一种形式,其中模型使用带有图像主主题标签的图像(换句话说,图像中是什么)进行训练,以便它可以分析未标记的图像并预测最合适的标签——识别图像的主题。
  • 对象检测 是计算机视觉的一种形式,在该视觉中训练模型以识别图像中特定对象的位置。
  • 语义分段 是对象检测的高级形式,在对象周围绘制框而不是指示对象的位置时,模型可以识别属于特定对象的图像中的单个像素。
  • 多模式 模型结合了视觉特征和关联的文本说明,使它们能够生成图像的综合说明。

计算机视觉场景

计算机视觉的常见用途包括:

  • 可以解释视觉输入的 Ai 代理。
  • 为照片自动生成标题或标签。
  • 视觉搜索。
  • 在零售场景中监控库存水平或识别需要结账的商品。
  • 安全视频监视。
  • 通过面部识别进行身份验证。
  • 机器人和自动驾驶汽车。