Vue d’ensemble de l’extraction d’informations
Note
Pour plus d’informations, consultez l’onglet Texte et images !
L’extraction d’informations est une charge de travail qui combine plusieurs techniques d’IA pour extraire des données à partir de contenu , souvent des documents numériques. Une solution d’extraction d’informations complète implique des éléments de vision par ordinateur pour détecter du texte dans des données basées sur des images ; et machine learning, ou de plus en plus générative IA, pour mapper sémantiquement le texte extrait à des champs de données spécifiques.
- Détection et extraction de texte à partir d’images à l’aide de la reconnaissance optique de caractères (OCR).
- Identification et mappage des valeurs des résultats OCR aux champs de données.
Par exemple, une solution de traitement des dépenses basée sur l’IA peut extraire automatiquement les champs pertinents des reçus pour traiter les revendications plus efficacement.
| Reçu numérisé | Données extraites |
|---|---|
|
|
Choix de l’approche appropriée
Lors de la planification d’une solution d’extraction d’informations, il est important de prendre en compte les exigences et les contraintes auxquelles le système doit répondre. Voici quelques éléments clés à prendre en compte :
Caractéristiques du document. Les documents à partir desquels vous devez extraire des données sont la base de l’ensemble de la solution. Tenez compte des facteurs tels que :
- Cohérence de la disposition : les formulaires standardisés privilégient les approches basées sur des modèles, tandis qu’un besoin de traiter plusieurs formats et dispositions peut nécessiter une solution basée sur le Machine Learning plus complexe.
- Exigences en matière de volume : le traitement en volume élevé bénéficie de modèles Machine Learning automatisés qui s’exécutent sur du matériel système optimisé.
- Exigences de précision : les applications critiques peuvent avoir besoin d’une validation humaine dans la boucle.
Exigences et contraintes de l’infrastructure technique. Votre solution nécessitera une infrastructure matérielle et logicielle pour fonctionner. Tenez compte des facteurs tels que :
- Sécurité et confidentialité : les documents que vous traitez peuvent contenir des données sensibles ou confidentielles. Votre solution doit inclure des mesures adéquates pour sécuriser l’accès aux données et la conformité aux exigences du secteur pour le stockage et le traitement des données protégées.
- Puissance de traitement : les modèles d’IA d’apprentissage profond et génératif couramment utilisés dans les solutions d’extraction d’informations nécessitent des ressources de calcul importantes.
- Exigences en matière de latence : le traitement en temps réel peut limiter la complexité du modèle.
- Besoins en scalabilité : les solutions basées sur le cloud offrent une meilleure scalabilité pour les charges de travail variables.
- Complexité de l’intégration : tenez compte des exigences en matière de compatibilité des API et de format de données.
Conseil / Astuce
Dans de nombreux cas, les solutions d’extraction d’informations peuvent être créées à l’aide de services logiciels, tels qu’Azure Document Intelligence dans Microsoft Foundry Tools et Azure Content Understanding dans Microsoft Foundry Tools. En utilisant des services tels que ceux-ci comme fondation de votre solution, vous pouvez considérablement réduire l'effort de développement requis tout en offrant des performances hautement évolutives, une précision éprouvée dans le secteur, et des capacités d'intégration efficaces.