Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Content Understanding permet aux clients d’implémenter la classification et le fractionnement dans le cadre de la demande d’opération d’analyseur. Vous pouvez effectuer une classification de contenu et une extraction de contenu dans le cadre d’un seul appel d’API.
Le concept global de analyzer inclut désormais les concepts de contentCategories et enableSegment pour classer et fractionner les données d’entrée que vous traitez dans votre application. Cette fonctionnalité d’analyseur peut effectuer la classification d’un fichier d’entrée dans son ensemble. Il peut également identifier plusieurs documents ou plusieurs instances d’un document unique dans un fichier d’entrée.
À compter de la version en disponibilité générale, la classification des documents et la conception de segmentation vidéo sont unifiées, ce qui permet une approche cohérente pour traiter les données d’entrée, quelle que soit sa modalité. Dans la documentation, la « classification Content Understanding » fait référence aux opérations d’analyse requises pour classifier et fractionner les données d’entrée (contentCategories et enableSegment).
Cas d’usage métier
La classification Content Understanding permet de traiter des documents et des vidéos complexes dans différents formats et modèles :
- Factures : catégorisez les factures de plusieurs fournisseurs pour traiter chaque catégorie avec un analyseur Compréhension de contenu différent, si nécessaire.
- Documents fiscaux : catégoriser plusieurs documents fiscaux en différents types de formulaires fiscaux, tels que 1040 et 1099.
- Contrats : catégoriser les contrats longs et non structurés pour simplifier les opérations afin de comprendre différents types d’accords et leurs implications juridiques spécifiques.
- Vidéo sportive : segmentez automatiquement les scènes pour diviser la vidéo en blocs logiques tels que les publicités et le contenu sportif réel.
Fonctionnalités de classification/segmentation
Content Understanding peut analyser des documents uniques ou multi-fichiers pour identifier si un fichier d’entrée peut être classé dans une catégorie telle que définie. Les scénarios suivants sont pris en charge :
Scénarios du document :
- Classifier uniquement : classifie le fichier d’entrée dans son ensemble. Par exemple, un seul fichier qui contient un type de document, tel qu’un formulaire de demande de prêt.
- Classifiez et analysez : classifie et analyse le fichier d’entrée en acheminant l’entrée vers l’analyseur d’extraction souhaité.
- Classifier et segmenter : classifie et segmente un fichier d’entrée unique qui peut avoir plusieurs types ou instances de documents concaténés. Par exemple, un package de demande de prêt qui contient un formulaire de demande de prêt, un bulletin de paiement et un relevé bancaire. Un autre exemple est une collection de factures numérisées dans un fichier unique.
- Classifier, segmenter et analyser : une fois les segments classés, routez chaque segment vers l’analyseur d’extraction souhaité pour une extraction de champ supplémentaire.
- Classifieur hiérarchique : une analyse supplémentaire facultative en fonction de la catégorie peut également être un analyseur de classifieur.
Scénarios vidéo :
-
Segment uniquement : Fractionner la vidéo en segments en fonction des caractéristiques de contenu définies dans le
descriptionchamp decontentCategories. Par exemple, le fractionnement d’une diffusion sportive en parties de jeu, de publicités et de segments de commentaires. - Segmenter et analyser : fractionner la vidéo en segments et acheminer chaque segment vers un analyseur pour l’extraction de champ.
Note
L’unité minimale pour la classification des documents est une page unique. La classification intrapage n’est pas prise en charge.
Créer des catégories de classification
La classification de la compréhension du contenu ne nécessite pas de jeu de données d’entraînement. Vous pouvez définir jusqu’à 200 noms de catégorie et descriptions dans l’opération d’analyse. Par défaut, l’intégralité du fichier est traitée comme un objet de contenu unique, ce qui signifie que le fichier sera associé à une seule catégorie.
À partir de la version GA, vous devez inclure la catégorie other dans contentCategories pour garantir que le contenu peut rester non associé à l’une des catégories que vous avez définies. Si la other catégorie n’est pas incluse, tous les fichiers sont obligés d’être classés dans l’une de vos catégories définies. Chacun des noms de catégorie que contentCategories vous définissez peut également inclure un description pour fournir des informations supplémentaires sur la catégorie que vous définissez.
Fractionnement du fichier d’entrée
Lorsque vous avez plusieurs documents dans un fichier, le classifieur peut identifier les différents types de documents contenus dans le fichier d’entrée avec une capacité de fractionnement. La réponse du classifieur contient les plages de pages pour chacun des types de documents identifiés contenus dans un fichier. Cette réponse peut inclure plusieurs instances du même type de document.
Lorsque vous exécutez l’opération analyze , elle inclut désormais une propriété qui vous donne un enableSegment contrôle granulaire sur le comportement de fractionnement. Vous pouvez également spécifier les numéros de page pour analyser uniquement certaines pages du document d’entrée :
- Pour traiter l’intégralité du fichier d’entrée comme plusieurs documents combinés pour la classification des documents, définissez
enableSegmentàtrue. Lorsque vous le faites, le service retourne automatiquement des catégories pour les segments du fichier d’entrée. - Pour traiter l’intégralité du fichier d’entrée en tant que document unique, définissez
enableSegmentsurfalse.
Note
Pour les vidéos, seule la segmentation est prise en charge. Vous devez définir un seul contentCategories avec enableSegment défini sur true. Utilisez le description champ pour spécifier des critères pour fractionner la vidéo en segments.
Analyse facultative
Pour un flux complet de bout en bout, vous pouvez lier des catégories de classifieur avec des analyseurs personnalisés existants et des analyseurs prédéfinis. Pour chaque objet de contenu classé en catégories avec des analyseurs liés, le service appelle automatiquement l’analyse sur l’objet de contenu à l’aide de l’analyseur correspondant.
Par exemple, vous pouvez utiliser cette liaison pour créer des classifieurs qui identifient et analysent uniquement les factures d’un fichier PDF qui contient plusieurs types de formulaires dans un document. Définissez analyzerId à l’un de nos analyseurs prédéfinis ou analyseurs personnalisés pour acheminer et effectuer l’extraction de champs à partir des documents ou pages classés.
Vous pouvez également omettre de définir n’importe quel analyzerId paramètre pour catégoriser, mais pas d’effectuer une analyse de contenu sur le fichier ou segment classé.
Sur la couche supérieure, vous pouvez également spécifier omitContent comme true pour vous assurer que l’objet de contenu d’origine est omis et ne renvoyer que les objets de contenu issus d'autres analyses effectuées sur le segment ou les fichiers classifiés.
Classifieur hiérarchique
L’opération d’analyseur nouvellement conçue permet le fractionnement hiérarchique et la classification. Par exemple, dans l’opération d’analyseur de base, vous pouvez définir les analyzerID catégories de contenu que vous avez définies avec votre analyseur personnalisé qui effectue une classification ou un fractionnement supplémentaires, en fonction des besoins. La définition d’analyseurs hiérarchiques permet des scénarios tels que la catégorisation de différents types de documents tels que les factures, les contrats et les reçus, avec l’analyzerID pour chacune de ces catégories peut également être une opération d’analyse avec une classification supplémentaire activée pour différents types de fichiers au sein des factures, des contrats et des reçus.
Les entrées de document prennent en charge cinq niveaux d’imbrication et les entrées vidéo prennent en charge deux.
Limites du classifieur
Pour plus d’informations sur les formats de document d’entrée pris en charge et les limites de classifieur, consultez Quotas et limites de service.
Meilleures pratiques
Pour améliorer la qualité de classification et de fractionnement, utilisez un nom et une description de catégorie appropriés pour que le modèle puisse comprendre les catégories avec un certain contexte. Pour plus d’informations sur les noms et descriptions des catégories, consultez Meilleures pratiques.
Principaux avantages
- Précision et fiabilité : assurez-vous une classification précise des documents pour réduire les erreurs et améliorer l’efficacité.
- Scalabilité : effectuer un scale-out transparent du traitement des documents pour répondre aux besoins de l’entreprise.
- Personnalisable : adaptez le classifieur de document pour qu’il corresponde à des flux de travail spécifiques.
Langues et régions prises en charge
Pour obtenir la liste des langues et régions prises en charge, consultez Prise en charge de la langue et de la région.
Sécurité et confidentialité des données
Les développeurs qui utilisent la compréhension de contenu doivent prendre connaissance des politiques de Microsoft en matière de données clients. Pour plus d’informations, consultez Données, protection et confidentialité.
Contenu connexe
- Essayez de traiter le contenu de votre document dans Content Understanding Studio
- Découvrez comment traiter le contenu du document à l’aide de modèles d’analyseur.