计算机视觉任务和技术
注释
有关更多详细信息,请参阅 “文本和图像 ”选项卡!
术语“计算机视觉”是指 AI 软件处理视觉输入的一系列任务和技术:通常来自图像、视频或实时相机流。 计算机视觉是一个成熟的 AI 领域,用于从视觉输入中提取信息的技术多年来发生了显著变化。
图像分类
最早的计算机视觉解决方案之一是一种称为 图像分类的技术,其中使用大量图像训练的模型用于根据图像的内容预测文本标签。
例如,假设一家杂货店想要实现自动识别生产的智能结帐系统。 例如,客户可以在结账时将水果或蔬菜放在称重秤上,连接到相机的 AI 应用程序可以自动识别农产品种类(苹果、橙子、香蕉等),并根据重量收取相应的金额。 若要使此解决方案正常工作,需要使用大量图像训练模型,每个图像都标有正确的名称。 结果是一个模型,该模型可以使用图像的视觉特征来预测其主主题。
对象检测
假设杂货店想要一个更复杂的系统,在该系统中,结帐可以扫描结帐上的多个物品并识别每个商品。 此类问题的常见方法称为“对象检测”。 对象检测模型检查图像中的多个区域,以查找各个对象及其位置。 模型生成的预测包括检测到的对象,以及这些对象在图像中出现的特定区域 - 由矩形边界框的坐标标识。
语义分割
另一种更复杂的方法来检测图像中的对象,称为“语义分段”。 在此方法中,训练模型以查找对象,并根据对象所属的对象对图像中的单个像素进行分类。 此过程的结果是对图像中对象位置的更精确的预测。
上下文图像分析
最新的 多模式 计算机视觉模型经过训练,以查找图像中对象与描述它们的文本之间的上下文关系。 结果是能够以语义方式解释图像以确定它所描述的对象和活动:并生成适当的说明或建议相关标记。
一个人吃苹果。