Comprendre les fonctionnalités d’analyse d’images Azure Vision
Les fonctionnalités d’analyse d’images d’Azure Vision peuvent être utilisées avec ou sans personnalisation. Voici quelques-unes des fonctionnalités qui ne nécessitent pas de personnalisation :
- Description d’une image avec des légendes
- Détection d’objets courants dans une image
- Fonctionnalités visuelles d’étiquetage
- Reconnaissance optique de caractères
Description d’une image avec des légendes
Azure Vision a la possibilité d’analyser une image, d’évaluer les objets qu’elle contient et de générer une description lisible par l’homme de l’image. Par exemple, considérez l’image suivante :
Azure Vision retourne la légende suivante pour cette image :
Une personne sautant sur un skate
Détection d’objets courants dans une image
Azure Vision peut identifier des milliers d’objets communs dans des images. Par exemple, lorsqu’il est utilisé pour détecter des objets dans l’image de skateboard décrite précédemment, Azure Vision retourne les prédictions suivantes :
- Skateboard (90,40 %)
- Personne (95,5 %)
Les prédictions incluent un score de confiance qui indique comment le modèle est confiant que ce qu’il décrit est ce qui se trouve réellement dans l’image.
Outre les étiquettes d’objets détectées et leurs probabilités, Azure Vision retourne des coordonnées de zone englobantes qui indiquent le haut, la gauche, la largeur et la hauteur de l’objet détectés. Vous pouvez utiliser ces coordonnées pour déterminer où, dans l’image, chaque objet a été détecté, comme suit :
Fonctionnalités visuelles d’étiquetage
Azure Vision peut suggérer des balises pour une image en fonction de son contenu. Les balises sont associées à des images en tant que métadonnées. Les balises résument les attributs de l’image. Vous pouvez utiliser des balises pour indexer une image avec un ensemble de termes clés pour une solution de recherche.
Par exemple, les balises retournées pour l’image de skateboard (avec les scores de confiance associés) sont les suivantes :
- sport (99,60 %)
- personne (99,56 %)
- chaussures (98,05 %)
- roller (96,27 %)
- sport de glisse (95,58 %)
- équipement de skate (94,43 %)
- vêtements (94.02%)
- mur (93,81 %)
- skateboard (93,78 %)
- skateur (93,25 %)
- sports individuels (92,80%)
- cascades de rue (90,81 %)
- solde (90,81 %)
- saut (89,87 %)
- équipement sportif (88,61%)
- sport extrême (88,35 %)
- kickflip (88,18 %)
- cascade (87,27 %)
- skateboard (86,87 %)
- interprète de cascade (85,83%)
- genou (85,30 %)
- sports (85,24 %)
- longboard (84,61 %)
- faire du longboard (84,45 %)
- rouler (73,37 %)
- skate (67,27 %)
- transport par air (64,83 %)
- jeune (63,29 %)
- extérieur (61,39 %)
Reconnaissance optique de caractères
Le service Azure Vision peut utiliser des fonctionnalités de reconnaissance optique de caractères (OCR) pour détecter du texte dans des images. Par exemple, considérez l’image suivante d’une étiquette de nutrition sur un produit dans une épicerie :
Le service Azure Vision peut analyser cette image et extraire le texte suivant :
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
Formation de modèles personnalisés
Si les modèles intégrés fournis par Azure Vision ne répondent pas à vos besoins, vous pouvez utiliser le service pour entraîner un modèle personnalisé pour la classification d’images ou la détection d’objets. Azure Vision crée des modèles personnalisés sur le modèle de base préentraîné, ce qui signifie que vous pouvez entraîner des modèles sophistiqués à l’aide de relativement peu d’images d’entraînement.
Classification d’images
Un modèle de classification d’images est utilisé pour prédire la catégorie ou la classe d’une image. Par exemple, vous pouvez entraîner un modèle pour déterminer le type de fruit affiché dans une image, comme suit :
| Pomme | Banane | Orange |
|---|---|---|
|
|
|
Détection d’objets
Les modèles de détection d’objets détectent et classent des objets dans une image, en retournant des coordonnées de zone englobantes pour localiser chaque objet. Outre les fonctionnalités de détection d’objets intégrées dans Azure Vision, vous pouvez entraîner un modèle de détection d’objet personnalisé avec vos propres images. Par exemple, vous pouvez utiliser des photographies de fruits pour entraîner un modèle qui détecte plusieurs fruits dans une image, comme ceci :
Remarque
Les détails de l’utilisation d’Azure Vision pour entraîner un modèle personnalisé dépassent l’étendue de ce module. Vous trouverez des informations sur l’entraînement de modèle personnalisé dans la documentation Azure Vision.
Examinons ensuite les fonctionnalités propres au service Visage d’Azure Vision.