Partager via


OCR – reconnaissance optique de caractères

Avertissement

Nous vous déconseillons d’utiliser ce service, notamment l’API OCR héritée d’Azure Vision dans Foundry Tools v3.2 et l’API RecognizeText v2.1.

Éditions OCR (Read)

Important

Sélectionnez l’édition Read qui répond le mieux à vos besoins.

Entrée Exemples Édition Read Avantage
Images : Images génériques générales étiquettes, panneaux de rue et affiches OCR pour les images (version 4.0) Optimisé pour les images générales qui ne sont pas des documents avec une API synchrone optimisée pour les performances qui facilite l’incorporation de l’OCR dans vos scénarios d’expérience utilisateur.
Documents : Documents numériques et numérisés, y compris les images livres, articles et rapports Modèle de lecture d’Intelligence documentaire Optimisé pour les documents numérisés et numériques riches en texte avec une API asynchrone afin d’automatiser le traitement intelligent des documents à grande échelle.

À propos de la lecture Azure Vision v3.2 en disponibilité générale

Vous recherchez la version la plus récente de la lecture Azure Vision v3.2 en disponibilité générale ? Toutes les futures améliorations de l’OCR en lecture font partie des deux services répertoriés précédemment. Il n’existe aucune autre mise à jour d’Azure Vision v3.2. Pour plus d’informations, consultez Appeler l’API de lecture Azure Vision 3.2 en disponibilité générale et Démarrage rapide : lecture Azure Vision v3.2 en disponibilité générale.

OCR ou Reconnaissance optique de caractères est également appelé reconnaissance de texte ou extraction de texte. Les techniques OCR basées sur le Machine Learning vous permettent d’extraire du texte imprimé ou manuscrit à partir d’images telles que des affiches, des panneaux de rue et des étiquettes de produits, ainsi que des documents tels que des articles, des rapports, des formulaires et des factures. Le texte est généralement extrait sous forme de mots, de lignes de texte et de paragraphes ou de blocs de texte, ce qui permet d’accéder à la version numérique du texte numérisé. Cette fonctionnalité élimine ou réduit considérablement la nécessité d’une entrée de données manuelle.

Moteur OCR

Le moteur de lecture OCR de Microsoft utilise plusieurs modèles d’apprentissage automatique avancés qui prennent en charge les langages globaux. Il extrait le texte imprimé et manuscrit, y compris les langues mixtes et les styles d’écriture. Vous pouvez utiliser Lecture en tant que service cloud ou en tant que conteneur local pour un déploiement flexible. Il est également disponible en tant qu’API synchrone pour des scénarios uniques, autres que des documents, des images uniquement avec des améliorations de performances qui simplifient l’implémentation des expériences utilisateur assistées par OCR.

Le traitement intelligent des documents (IDP) utilise OCR comme technologie fondamentale pour extraire la structure, les relations, les valeurs clés, les entités et d’autres insights centrés sur le document avec un service IA basé sur le machine learning avancé comme Document Intelligence. Intelligence documentaire inclut une version optimisée pour les documents de Read en tant que moteur OCR tout en déléguant à d’autres modèles pour obtenir des insights de niveau supérieur. Si vous extrayez du texte à partir de documents numérisés et numériques, utilisez document Intelligence Read OCR.

Comment utiliser OCR ?

Essayez la reconnaissance optique de caractères à l’aide de Vision Studio. Suivez ensuite l’un des liens vers l’édition Lecture qui répond le mieux à vos besoins.

Capture d’écran : démo de reconnaissance OCR Read dans Vision Studio.

Langues prises en charge par OCR

Les deux versions de lecture disponibles aujourd’hui dans Azure Vision prennent en charge plusieurs langues pour le texte imprimé et manuscrit. OCR pour texte imprimé prend en charge l’anglais, le français, l’allemand, l’italien, le portugais, l’espagnol, le chinois, le japonais, le coréen, le russe, l’arabe, et d’autres langues internationales qui utilisent des scripts latin, cyrillique, arabe et devanagari. OCR pour texte manuscrit prend en charge l’anglais, le chinois simplifié, le français, l’allemand, l’italien, le japonais, le coréen, le portugais et les langues espagnoles.

Consultez la liste complète des langues prises en charge par OCR.

Fonctionnalités courantes d’OCR

Le modèle OCR de lecture est disponible dans Azure Vision et Document Intelligence avec des fonctionnalités de base courantes tout en optimisant les scénarios respectifs. La liste suivante résume les fonctions courantes :

  • Extraction de texte imprimé et manuscrit dans les langues prises en charge
  • Pages, lignes de texte et mots avec des scores de localisation et de confiance
  • Prise en charge des langues mixtes et du mode mixte (impression et écriture manuscrite)
  • Disponible en tant que conteneur Docker Distroless pour un déploiement local

Utiliser les API cloud OCR ou déployer localement

La plupart des clients préfèrent les API cloud, car elles sont faciles à intégrer et à offrir une productivité rapide prête à l’emploi. Azure et le service Azure Vision gèrent les besoins en matière de mise à l’échelle, de performances, de sécurité des données et de conformité tout en vous concentrant sur les besoins de vos clients.

Pour le déploiement local, le conteneur Read Docker vous permet de déployer les fonctionnalités OCR d’Azure Vision v3.2 en disponibilité générale dans votre propre environnement local. Les conteneurs conviennent particulièrement bien à certaines exigences de sécurité et de gouvernance des données.

Critères des entrées

L’API Read prend des images et des documents en entrée. Les images et les documents doivent répondre aux exigences suivantes :

  • Formats de fichiers pris en charge : JPEG, PNG, BMP, PDF et TIFF.
  • Pour les fichiers PDF et TIFF, jusqu’à 2 000 pages sont traitées (seules les deux premières pages du niveau gratuit).
  • La taille de fichier des images doit être inférieure à 500 Mo (4 Mo pour le niveau gratuit) avec des dimensions d’au moins 50 x 50 pixels et au maximum 10 000 x 10 000 pixels. Les fichiers PDF n’ont pas de limite de taille.
  • La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768, qui correspond environ à un texte de police de 8 points à 150 PPP.

Remarque

Vous n’avez pas besoin de rogner une image pour obtenir les lignes de texte. Envoyez l’image entière à l’API Read et elle reconnaît tous les textes.

Données, confidentialité et sécurité OCR

Comme avec tous les outils Foundry, les développeurs qui utilisent le service Azure Vision doivent connaître les stratégies de Microsoft sur les données client. Consultez la page Outils Foundry dans le Centre de confiance Microsoft pour en savoir plus.

Étapes suivantes