Tâches et techniques de vision par ordinateur

Effectué

Note

Pour plus d’informations, consultez l’onglet Texte et images !

Le terme « vision par ordinateur » fait référence à une gamme de tâches et de techniques dans lesquelles le logiciel IA traite l’entrée visuelle ; généralement à partir d’images, de vidéos ou de flux de caméra en direct. La vision par ordinateur est un domaine bien établi de l’IA, et les techniques utilisées pour extraire des informations d’entrée visuelle ont évolué de manière significative au fil des années.

Classification d’images

L’une des solutions de vision par ordinateur les plus anciennes est une technique appelée classification d’images, dans laquelle un modèle formé avec un grand nombre d’images est utilisé pour prédire une étiquette de texte basée sur le contenu d’une image.

Par exemple, supposons qu’un épicerie souhaite implémenter un système de caisse intelligent qui identifie automatiquement les produits. Par exemple, le client peut placer des fruits ou des légumes à l’échelle à l’caisse, et une application IA connectée à une caméra peut identifier automatiquement les types de produits (pomme, orange, banane, etc.) et facturer la quantité appropriée en fonction de son poids. Pour que cette solution fonctionne, un modèle doit être formé avec un grand volume d’images, chacun étiqueté avec le nom correct. Le résultat est un modèle qui peut utiliser les fonctionnalités visuelles d’une image pour prédire son sujet principal.

Photographies d’une orange, d’une pomme et d’une banane.

Détection d’objets

Supposons que l’épicerie veut un système plus sophistiqué, dans lequel la caisse peut analyser plusieurs articles sur la caisse et identifier chacun d’eux. Une approche courante de ce type de problème est appelée « détection d’objets ». Les modèles de détection d’objets examinent plusieurs régions d’une image pour rechercher des objets individuels et leurs emplacements. La prédiction résultante du modèle inclut les objets détectés et les régions spécifiques de l’image dans laquelle elles apparaissent , indiquées par les coordonnées du cadre englobant rectangulaire.

Photographie d’une orange, d’une pomme et d’une banane avec des boîtes englobantes.

Segmentation sémantique

Une autre méthode plus sophistiquée pour détecter des objets dans une image est appelée « segmentation sémantique ». Dans cette approche, un modèle est formé pour rechercher des objets et classifier des pixels individuels dans l’image en fonction de l’objet auquel ils appartiennent. Le résultat de ce processus est une prédiction beaucoup plus précise de l’emplacement des objets dans l’image.

Photographie d’une orange, d’une pomme et d’une banane avec des masques superposés.

Analyse d’images contextuelles

Les derniers modèles de vision par ordinateur modal sont formés pour trouver des relations contextuelles entre les objets dans les images et le texte qui les décrit. Le résultat est une possibilité d’interpréter sémantiquement une image pour déterminer les objets et les activités qu’il représente ; et générer des descriptions appropriées ou suggérer des balises pertinentes.

Photographie d’une personne mangeant une pomme.

Une personne mangeant une pomme.