Partager via


Compréhension du contenu Azure dans les solutions de documents des outils Foundry

Important

Cette fonctionnalité est disponible en version préliminaire. Les versions d'aperçu publiques offrent un accès anticipé aux fonctionnalités en cours de développement. Les fonctionnalités, les approches et les processus peuvent changer ou avoir des fonctionnalités limitées avant la disponibilité générale. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.

Content Understanding offre des fonctionnalités d’analyse de documents sophistiquées. Les organisations peuvent utiliser ces fonctionnalités pour convertir du contenu non structuré en données actionnables et organisées. Content Understanding peut utiliser des analyseurs personnalisables pour extraire des informations, des champs et des relations essentiels d’un large éventail de documents et de formulaires.

Cas d’usage métier

Les analyseurs de documents peuvent traiter des documents complexes dans différents formats et modèles :

  • Gestion du cycle de vie des contrats : Extrayez les champs clés, les clauses et les obligations de différents types de contrats.
  • Demandes de prêt et d’hypothèque : Automatisez le traitement pour permettre une gestion plus rapide par les banques, les prêteurs et les entités gouvernementales.
  • Services financiers: Analysez des documents complexes tels que des rapports financiers et des rapports de gestion des actifs.
  • Gestion des dépenses : Analysez les reçus et factures de différents détaillants pour valider les dépenses dans différents formats et modèles.
  • Ensembles de documents et scénarios de base de connaissances : Extrayez les champs clés des jeux de documents dans son ensemble. Ajoutez des données de référence qui gèrent des tâches telles que la validation et l’enrichissement en appliquant le raisonnement multistep.

Principaux avantages

Content Understanding offre de puissantes fonctionnalités d’analyse de documents conçues pour répondre aux scénarios d’entreprise et d’entreprise critiques, tels que RAG et l’automatisation des processus robotisés. Les principaux avantages sont les suivants :

  • Activation intelligente de la recherche : Transformez des documents non structurés en ressources de données structurées et pouvant faire l’objet d’une recherche afin d’améliorer la détectabilité et l’accessibilité des informations au sein de votre organisation.
  • Extraction de données ancrées : Maintenir une traçabilité et une localisation claires des données extraites afin de faciliter les processus de révision efficaces impliquant l’intervention humaine et de garantir la transparence et la conformité.
  • Automatisation basée sur la confiance : Utilisez le scoring de confiance intégré pour automatiser intelligemment les tâches de traitement des documents afin d’optimiser l’allocation des ressources, de réduire les coûts opérationnels et d’améliorer la précision de la prise de décision.
  • Personnalisation flexible : Adaptez et personnalisez facilement les analyseurs de documents pour s’aligner sur des processus métier et des flux de travail spécifiques. La personnalisation permet une extraction et une classification précises adaptées aux exigences spécifiques de votre organisation.
  • Précision et fiabilité améliorées : Obtenez une extraction et une classification précises des données métier critiques pour réduire les erreurs et améliorer l’efficacité opérationnelle dans les flux de travail automatisés.
  • Agents prêts : Traitez vos entrées diverses et fournissez la sortie dans un format standard prêt pour le flux de travail d’un agent. Les sorties peuvent donner à votre application une compréhension de l’intention de l’utilisateur, avec des données prises en charge par un strongly-typed schéma qui facilite l’obtention rapide de données dans un format prêt pour votre code.

Capacités de l'analyseur de documents

Capture d’écran montrant le flux d’extraction de document.

Extraction de contenu

L’extraction de contenu constitue la base des fonctionnalités d’analyse de document Content Understanding. Ce processus transforme les documents non structurés en données structurées lisibles par l’ordinateur. L’extraction de contenu capture précisément le texte imprimé et manuscrit pendant qu’il conserve la structure du document par le biais d’une analyse avancée de la disposition :

  • Analyse du contenu
    • Texte : traite le contenu multilingue, y compris le texte imprimé automatiquement et manuscrit à partir de centaines de langues.
    • Marques de sélection : identifie et extrait les indicateurs de sélection tels que les cases à cocher, les boutons et les marqueurs similaires.
    • Détection de codes-barres : analyse et décode les informations de plus d’une douzaine de types de codes-barres linéaires et bidimensionnels.
    • Formules mathématiques : capture et conserve des expressions mathématiques complexes au format LaTeX.
    • Éléments d’image : recherche et extrait des images, des figures, des diagrammes et des graphiques, ainsi que leurs légendes et annotations associées.
    • Éléments de lien hypertexte : détecte les liens hypertexte incorporés dans le document.
    • Éléments d’annotation : associe le contenu à ses annotations telles que le trait de frappe, le soulignement, la mise en surbrillance.
    • Éléments de figure : détecte et extrait des éléments de figure en sortie structurée.
  • Analyse de structure
    • Paragraphes : détecte et catégorise les segments de texte en fonction de leur contexte de document et de leur rôle.
    • Données tabulaires : reconnaît et extrait les structures de tableau, y compris les formats complexes avec des cellules couvrant des cellules et des dispositions multipage.
    • Sections hiérarchiques : mappe l’organisation de contenu via les en-têtes de section et les relations de contenu imbriquées.
  • Génération augmentée par récupération (RAG)
    • Solutions RAG : l’extraction de contenu constitue la base de systèmes RAG efficaces en transformant les données modales brutes en formats structurés et pouvant faire l’objet d’une recherche optimisés pour la récupération. Pour en savoir plus sur la création de solutions RAG, consultez La génération augmentée par récupération.

Extraction de champ

Avec l’extraction de champs, vous pouvez extraire, classifier et générer des données structurées à partir de différents documents et formulaires personnalisés pour répondre à vos besoins. Le processus de transformation du contenu non structuré en informations organisées et actionnables simplifie la gestion des données, améliore la recherche et prend en charge les flux de travail automatisés.

Par exemple, vous pouvez extraire en toute transparence les détails du client, les adresses de facturation et les frais détaillées des factures. Vous pouvez également identifier les parties contractuelles, les dates de renouvellement et les conditions de paiement dans les contrats juridiques. Pour optimiser l’efficacité, vous pouvez utiliser des modèles d’analyseur prédéfinis, tels que des modèles adaptés aux factures. Vous pouvez également concevoir des analyseurs sur mesure à partir de zéro pour améliorer la précision grâce à l’étiquetage d’autres exemples de documents.

L’API de confiance et d’ancrage est une fonctionnalité avec option d’adhésion. Pour choisir la confiance et l’ancrage lors de l’extraction de champs, définissez estimateFieldSourceAndConfidence = true dans la configuration de l’analyseur ou estimateSourceAndConfidence = true pour un champ spécifique.

Méthodes d’extraction de champs

Content Understanding fournit des méthodes polyvalentes pour l’extraction de champs, ce qui permet un traitement précis et adapté du contenu du document :

  • Extraire : extrayez des données spécifiques, telles que les dates de transaction des reçus ou des éléments de ligne à partir de factures, pour une capture d’informations précise et ciblée.
  • Classifier : catégoriser le contenu du document en catégories prédéfinies, telles que la classification des sentiments dans les transcriptions des appels client ou la classification des éléments de reçu d’hôtel.
  • Générer : produire de nouveaux insights ou résumés à partir de vos documents, y compris des résumés de documents et des présentations de chapitre pour améliorer l’accessibilité et la compréhension du contenu.

Critères des entrées

Pour plus d’informations sur les formats de documents d’entrée pris en charge, consultez Quotas et limites de service.

Langues et régions prises en charge

Pour obtenir la liste des langues et régions prises en charge, consultez la prise en charge de la langue et de la région.

Données, confidentialité et sécurité

Les développeurs qui utilisent Content Understanding doivent passer en revue les stratégies Microsoft sur les données client. Pour plus d’informations, consultez Données, confidentialité et sécurité.