Computer Vision

完了

詳細については、「 テキストと画像 」タブを参照してください。

コンピューター ビジョン は、視覚的な入力の分析を扱う人工知能の領域です。写真、ビデオ、ライブ カメラ フィードなど。 コンピューター ビジョンは、多数の画像を使用してモデルをトレーニングすることによって実現されます。

大量の画像を使用してトレーニングされているコンピューター ビジョン モデルの図。

コンピューター ビジョン モデルには複数の種類があります。

  • 画像分類 はコンピューター ビジョンの一種で、画像の主な件名 (つまり、画像) でラベル付けされた画像を使用してモデルをトレーニングし、ラベル のない画像を分析し、最も適切なラベルを予測できるようにします。画像の件名を識別します。
  • 物体検出 は、モデルをトレーニングして画像内の特定のオブジェクトの場所を識別するコンピューター ビジョンの一種です。
  • セマンティック セグメント化 は、オブジェクトの周囲にボックスを描画してオブジェクトの位置を示すのではなく、特定のオブジェクトに属する画像内の個々のピクセルを識別できる高度な形式のオブジェクト検出です。
  • マルチモーダル モデルは 、視覚的特徴と関連するテキストの説明を組み合わせて、画像の包括的な説明を生成できるようにします。

コンピューター ビジョンのシナリオ

コンピューター ビジョンの一般的な用途は次のとおりです。

  • 視覚的な入力を解釈できる Ai エージェント。
  • 写真の自動キャプションまたはタグ生成。
  • ビジュアル検索。
  • 小売シナリオでの在庫レベルの監視またはチェックアウトの項目の識別。
  • セキュリティ ビデオの監視。
  • 顔認識による認証。
  • ロボット工学と自動運転車。