Partager via


Note de transparence et cas d’usage pour la reconnaissance optique de caractères

Important

Les traductions non anglaises sont fournies uniquement pour des raisons pratiques. Consultez la EN-US version de ce document pour obtenir la version définitive.

Cet article fournit des informations sur les cas d’usage pour la reconnaissance optique de caractères (OCR).

Qu’est-ce qu’une note de transparence ?

Un système IA comprend non seulement la technologie, mais aussi les personnes qui l’utiliseront, les personnes qui seront affectées par lui et l’environnement dans lequel il est déployé. La création d’un système adapté à son objectif prévu nécessite une compréhension du fonctionnement de la technologie, de ses capacités et de ses limitations et de la façon d’atteindre les meilleures performances.

Microsoft fournit des notes de transparence pour vous aider à comprendre le fonctionnement de notre technologie IA. Cela inclut les choix que les propriétaires du système peuvent faire qui influencent les performances et le comportement du système, ainsi que l’importance de réfléchir à l’ensemble du système, y compris la technologie, les personnes et l’environnement. Vous pouvez utiliser des notes de transparence lors du développement ou du déploiement de votre propre système, ou les partager avec les personnes qui utiliseront ou seront affectées par votre système.

Les notes de transparence font partie d’un effort plus large chez Microsoft pour mettre en pratique nos principes d’IA. Pour en savoir plus, consultez les principes d’IA de Microsoft.

Introduction à la reconnaissance optique de caractères (OCR)

Les entreprises ont souvent besoin de convertir du texte à partir d’images, de documents papier numérisés et de fichiers numériques en insights exploitables. Ces insights alimentent l’exploration des connaissances, l’automatisation des processus métier et l’accessibilité du contenu pour tout le monde. La reconnaissance optique de caractères (OCR) est un service IA utilisé pour extraire du texte à partir de contenu visuel, comme des images et des documents. L’OCR prend actuellement en charge plusieurs langues pour l’extraction de texte imprimé (voir langues prises en charge par OCR). L’OCR manuscrit est actuellement pris en charge exclusivement pour l’anglais.

Principes de base de l’OCR

La technologie OCR de Microsoft est proposée via l’API De lecture d’Azure Vision dans Foundry Tools Read. Les clients appellent l’API Read avec leur contenu pour obtenir le texte extrait, son emplacement et d’autres insights dans la sortie de texte lisible par ordinateur. Ils traitent la sortie au sein de leurs applications métier pour implémenter l’intelligence de contenu, l’automatisation des processus métier et d’autres scénarios pour leurs utilisateurs.

Terme Definition
Asynchrone Asynchrone signifie que le service ne retourne pas immédiatement le texte extrait. Au lieu de cela, le processus démarre en arrière-plan. L’application cliente devra vérifier ultérieurement pour obtenir le texte extrait.
Lire L’opération lecture est un appel asynchrone qui accepte les images et les documents pour commencer l’analyse et l’extraction de texte, qui est retournée via un autre appel.
Obtenir les résultats de lecture Pendant que le processus d’analyse et d’extraction est actif, l’opération Obtenir les résultats de lecture génère l’état de progression. Une fois le processus terminé, l’opération Obtenir les résultats de lecture génère le texte extrait (sous la forme de lignes de texte et de mots) et les valeurs de confiance.
Valeur de confiance L’opération Obtenir les résultats de lecture retourne des valeurs de confiance dans la plage comprise entre 0 et 1 pour tous les mots extraits. Cette valeur représente l’estimation du service du nombre de fois qu’il extrait correctement le mot sur 100. Par exemple, un mot dont on estime qu'il est correctement extrait 82 % du temps produira une valeur de confiance de 0,82.

Exemples de cas d’utilisation

Les cas d’usage suivants sont des exemples populaires pour la technologie OCR.

  • Images et documents de recherche et d’archivage : des documents non structurés tels que des contrats juridiques, des documents techniques et du contenu d’actualités contiennent des informations et des métadonnées enrichies qui ne sont pas disponibles pour les processus tels que le balisage automatisé, la catégorisation et la recherche. OCR permet au texte de ces documents d’être lisible par ordinateur pour l’analyse, la recherche et la récupération.
  • Modération et localisation de contenu d’image : les entreprises de commerce électronique, les éditeurs de contenu générés par l’utilisateur et les communautés de jeux en ligne et de médias sociaux doivent modérer les images pour être conformes aux réglementations en matière de sécurité en ligne. Dans certains cas, ils doivent également localiser du contenu pour les audiences internationales. OCR vous permet d’extraire du texte d’images pour appliquer le traitement en aval.
  • Automatisation des processus métier : l’automatisation des processus métier nécessite l’intégration des données et des préférences entrées par l’utilisateur dans les documents et les écrans d’application avec des processus métier complexes. OCR déverrouille le texte incorporé dans des documents et des images et le rend disponible pour une utilisation dans les étapes des flux de travail métier.
  • Traitement des documents financiers et médicaux : lorsqu’il est utilisé dans le traitement des formulaires de demande de financement et d’assurance, l’OCR permet de gagner du temps et des efforts dans le traitement des documents. De même, l’OCR appliqué aux remboursements de dossiers de réclamations médicales et aux formulaires d’information médicale accélère les remboursements et l’éligibilité pour les services et les prestations.

Aspects à prendre en considération lors du choix d’autres cas d’usage

Tenez compte des facteurs suivants lorsque vous choisissez un cas d’usage.

  • Examinez attentivement l’utilisation pour attribuer ou refuser des avantages : l’utilisation de la sortie OCR directement pour l’attribution ou le refus des avantages peut entraîner des erreurs si elles sont basées sur des informations incorrectes ou incomplètes. Par exemple, lorsque vous remplissez des formulaires médicaux, les utilisateurs peuvent faire des erreurs ou ne pas inclure d’informations importantes. En outre, l’OCR peut potentiellement mal lu ou ne pas détecter des parties du formulaire. Pour garantir des décisions équitables et de haute qualité pour les consommateurs, associez l’automatisation basée sur OCR à la supervision humaine.

  • Évitez d’utiliser l’identification de signature : lorsque vous extrayez du texte manuscrit, évitez d’utiliser les résultats OCR sur les signatures pour identifier les individus. Les signatures sont difficiles à lire pour les humains et les machines. Une meilleure façon d’utiliser OCR consiste à l’utiliser pour détecter la présence d’une signature pour une analyse plus approfondie.

  • N’utilisez pas ocr pour les décisions susceptibles d’avoir des effets néfastes graves : des exemples de tels cas d’usage incluent le traitement des ordonnances médicales et la distribution de médicaments. Les modèles Machine Learning qui extraient du texte à partir d’ordonnances peuvent entraîner une sortie de texte non détectée ou incorrecte. Les décisions basées sur un résultat incorrect pourraient avoir de graves répercussions négatives. De plus, il est conseillé d’inclure l’examen humain des décisions susceptibles d’avoir des répercussions graves sur les individus.

  • Considérations juridiques et réglementaires : les organisations doivent évaluer des obligations légales et réglementaires spécifiques potentielles lors de l’utilisation d’outils et de solutions Foundry, ce qui peut ne pas convenir à une utilisation dans chaque secteur ou scénario. En outre, les outils ou solutions Foundry ne sont pas conçus pour et ne peuvent pas être utilisés de manière interdite en termes de service applicables et les codes de conduite pertinents.