Extraire des informations modales avec Azure Content Understanding

Terminé

Azure Content Understanding utilise des modèles IA de pointe pour analyser le contenu dans plusieurs formats, notamment :

  • Formulaires et documents textuels
  • Audio
  • Images
  • Vidéo

Analyse des formulaires et des documents

Les fonctionnalités d’analyse des documents d’Azure Content Understanding vont au-delà de l’extraction de texte basée sur OCR simple pour inclure l’extraction basée sur le schéma des champs et leurs valeurs.

Par exemple, supposons que vous définissez un schéma qui inclut les champs courants généralement trouvés dans une facture, par exemple :

  • Nom de fournisseur
  • Numéro de facture
  • Date de la facture
  • Nom du client
  • Adresse personnalisée
  • Articles : les articles commandés, chacun incluant :
    • Description de l’article
    • Prix unitaire
    • Quantité commandée
    • Total pour l’article
  • Sous-total de la facture
  • Taxe
  • Frais d’expédition
  • Total de la facture

Supposons maintenant que vous devez extraire ces informations de la facture suivante :

Photographie d’une facture.

Azure Content Understanding peut appliquer le schéma de facture à votre facture et identifier les champs correspondants, même lorsqu’ils sont étiquetés avec différents noms (ou non étiquetés du tout). L’analyse résultante produit un résultat semblable à ceci :

Photographie d’une facture analysée avec des champs détectés mis en surbrillance.

Pour chaque champ détecté, la valeur est extraite de la facture :

  • Nom du fournisseur : Adventure Works Cycles
  • Numéro de facture : 1234
  • Date de facturation : 03/07/2025
  • Nom du client : John Smith
  • Adresse personnalisée : 123 River Street, Marshtown, Angleterre, GL1 234
  • Éléments :
    • Élément 1 :
      • Description de l’élément : 38" Racing Bike (Rouge)
      • Prix unitaire : 1299,00
      • Quantité ordonnée : 1
      • Total pour l’article : 1299,00
    • Élément 2 :
      • Description de l’élément : Casque à vélo (Noir)
      • Prix unitaire : 25,99
      • Quantité ordonnée : 1
      • Total pour l’article : 25,99
    • Élément 3 :
      • Description de l’élément : Chemise à vélo (L)
      • Prix unitaire : 42,50
      • Quantité ordonnée : 2
      • Total pour l’article : 85,00
  • Sous-total de facture : 1409.99
  • Taxe : 140,99
  • Frais d’expédition : 35.00
  • Total de la facture : 1585,98

Analyse de l’audio

En plus des documents textuels, Azure Content Understanding est capable d’analyser des fichiers audio pour fournir des transcriptions, des résumés et d’autres insights clés.

Supposons que vous souhaitiez que l’IA récapitule votre messagerie vocale. Vous pouvez définir un schéma d’insights clés à extraire de chaque appel enregistré, comme suit :

  • Appelant
  • Résumé du message
  • Actions demandées
  • Numéro de rappel
  • Autres coordonnées

Supposons maintenant qu’un appelant vous laisse le message vocal suivant :

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

L’utilisation d’Azure Content Understanding pour analyser l’enregistrement audio et appliquer votre schéma produit les résultats suivants :

  • Appelant : Ava de Contoso
  • Résumé du message : Ava de Contoso a appelé pour faire le point sur une réunion et a mentionné qu'elle peut répondre aux attentes en matière de prix. Elle a demandé un rappel ou un e-mail pour discuter des étapes suivantes.
  • Actions demandées : rappelez ou envoyez un e-mail pour discuter des étapes suivantes.
  • Numéro de rappel : 555-12345
  • Autres coordonnées : Ava@contoso.com

Analyse d’images et de vidéos

Azure Content Understanding prend en charge l’analyse des images et des vidéos pour extraire des informations basées sur un schéma personnalisé. Par exemple, vous pouvez analyser des images d’une vidéoconférence pour extraire les détails de la présence, de l’emplacement et d’autres informations.

Supposons que vous avez défini le schéma suivant pour une image prise par un système de messagerie collaboratif qui combine les participants en salle et les participants distants sur un système d’appel de conférence :

  • Emplacement
  • Participants en personne
  • Participants à distance
  • Nombre total de participants

Vous pouvez utiliser Azure Content Understanding pour analyser l’image suivante à partir de la caméra de salle de conférence :

Photographie d'une personne dans une salle de conférence, en communication avec trois participants à distance.

Lorsque vous appliquez le schéma précédent à cette image, Azure Content Understanding produit les résultats suivants :

  • Emplacement : Salle de conférence
  • Participants en personne : 1
  • Participants distants : 3
  • Nombre total de participants : 4

Si, au lieu d'analyser une image fixe, vous deviez créer un analyseur pour analyser la vidéo enregistrée de l'appel ; le schéma pourrait inclure les comptes de présence à différents intervalles de temps, les détails de qui a parlé pendant l'appel et ce qu'ils ont dit, un résumé de la discussion et une liste des actions assignées lors de la réunion.