Partager via


Azure Content Understanding dans les solutions vidéo Foundry Tools (préversion)

Important

Azure Content Understanding est disponible en préversion. Les versions d'aperçu publiques offrent un accès anticipé aux fonctionnalités en cours de développement. Les fonctionnalités, les approches et les processus peuvent changer ou avoir des fonctionnalités limitées avant la disponibilité générale. Pour plus d’informations, consultez Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure.

Azure Content Understanding vous permet de générer un ensemble standard de métadonnées vidéo et de créer des champs personnalisés pour votre cas d’usage spécifique à l’aide de modèles génératifs. Content Understanding vous aide à gérer, classer, récupérer et générer des flux de travail pour les ressources vidéo. Il améliore votre bibliothèque de ressources multimédias, prend en charge les fonctionnalités telles que la génération de mise en surbrillance, catégorise le contenu et facilite les applications telles que la génération d’extraction augmentée (RAG).

Illustration du flux de traitement vidéo Content Understanding.

L’analyseur vidéo prédéfini (prebuilt-videoAnalysis) génère un résultat prêt pour RAG. Dans Markdown, il génère les éléments suivants :

  • Transcription: Transcriptions inline au format WEBVTT standard
  • Images clés : Miniatures d’images clés ordonnées permettant une analyse plus approfondie

Et le schéma JSON contient plus de détails à partir de l’analyse visuelle.

  • Description: Descriptions de segments en langage naturel avec contexte visuel et vocal
  • Segmentation: Segmentation de scène automatique cassant la vidéo en blocs logiques en fonction des catégories que vous définissez

Ce format peut être directement inséré dans un magasin vectoriel pour activer un agent ou un flux de travail RAG. Aucun post-traitement n’est nécessaire.

À partir de là, vous pouvez personnaliser l’analyseur pour un contrôle plus précis de la sortie. Vous pouvez définir des champs et des segments personnalisés. La personnalisation vous permet d’utiliser la puissance complète des modèles générateurs pour extraire des insights approfondis à partir des détails visuels et audio de la vidéo.

Par exemple, la personnalisation vous permet de :

  • Définissez des champs personnalisés : pour identifier les produits et les marques qui sont vus ou mentionnés dans la vidéo.
  • Générez des segments personnalisés : pour segmenter une diffusion d’actualités en chapitres en fonction des sujets ou des articles abordés.
  • Identifier les personnes de premier plan à l’aide de la description du visage : permettre à un client d’étiqueter des célébrités dans des séquences avec le nom et le titre en fonction des connaissances mondiales du modèle génératif, par exemple Satya Nadella.

Pourquoi utiliser Content Understanding pour la vidéo ?

La compréhension du contenu vidéo a un large potentiel d’utilisation. Par exemple, vous pouvez personnaliser les métadonnées pour baliser des scènes spécifiques dans une vidéo de formation, ce qui permet aux employés de localiser et de revisiter plus facilement les sections importantes. Vous pouvez également utiliser la personnalisation des métadonnées pour identifier le placement des produits dans les vidéos promotionnelles, ce qui aide les équipes marketing à analyser l'exposition de la marque. Voici d’autres cas d’usage :

  • Diffuser des médias et des divertissements : Gérez de grandes bibliothèques d’émissions, de films et de clips en générant des métadonnées détaillées pour chaque ressource.
  • Éducation et e-Learning : Indexez et récupérez des moments spécifiques dans des vidéos ou des conférences éducatives.
  • Formation d’entreprise : Organisez des vidéos de formation par sujets clés, scènes ou moments importants.
  • Marketing et publicité : Analysez les vidéos promotionnelles pour extraire des placements de produits, des apparences de marque et des messages clés.

Exemple d’analyseur vidéo prédéfini

Avec l’analyseur vidéo préconfiguré (prebuilt-videoSearch), vous pouvez charger une vidéo et obtenir une ressource de savoir immédiatement exploitable. Le service empaquette le contenu en Markdown et JSON, mis en forme de manière enrichie. Ce processus permet à votre index de recherche ou à votre assistant de conversation d’ingérer le contenu sans code de collage personnalisé.

  1. Par exemple, appelez l’analyseur conçu pour la génération augmentée par la recherche pour la vidéo prebuilt-videoSearch. Pour plus d’informations, consultez le guide de démarrage rapide de l’API REST .

  2. Ensuite, l’analyse d’une vidéo publicitaire de 30 secondes entraîne la sortie suivante :

      # Video: 00:00.000 => 00:06.000
      A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Get new years ready.
    
      Key Frames
      - 00:00.600 ![](keyFrame.600.jpg)
      - 00:01.200 ![](keyFrame.1200.jpg)
    
      ## Video: 00:06.000 => 00:10.080
      The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
      Transcript
    
      WEBVTT
    
      00:03.600 --> 00:06.000
      <Speaker 1>Go team!
    
      Key Frames
      - 00:06.200 ![](keyFrame.6200.jpg)
      - 00:07.080 ![](keyFrame.7080.jpg)
    
         *…additional data omitted for brevity…*
    

Walkthrough

Consultez la procédure pas à pas suivante pour RAG sur vidéo à l’aide de Content Understanding :

RAG sur vidéo à l’aide de la compréhension de contenu Azure

Capacités

Remarque

Les fonctionnalités d’identification et de regroupement des visages sont disponibles uniquement dans la version préliminaire de l’API et ne sont pas incluses dans la version en disponibilité générale.

Sous le capot, deux étapes transforment les pixels bruts en insights prêts pour l’entreprise. Le diagramme ci-dessous montre comment l’extraction alimente la génération, en veillant à ce que chaque étape en aval ait le contexte dont elle a besoin.

Capture d'écran du flux de l'analyseur vidéo.

Le service fonctionne en deux étapes. La première étape, l’extraction de contenu implique la capture de métadonnées fondamentales telles que les transcriptions et les captures. La deuxième étape, l’extraction de champs, utilise un modèle génératif pour produire des champs personnalisés et effectuer une segmentation.

Fonctionnalités d’extraction de contenu

Le premier passage consiste à extraire une première série d’informations : qui parle et où se trouvent les coupures. Il crée une colonne vertébrale de métadonnées solide sur laquelle les étapes ultérieures peuvent se justifier.

  • Transcription: Convertit l’audio conversationnel en transcriptions textuelles pouvant faire l’objet d’une recherche et d’une analyse au format WebVTT. Les horodatages au niveau de la phrase sont disponibles si "returnDetails": true est défini. Content Understanding prend en charge l’ensemble complet d’Azure Speech dans les langages de reconnaissance vocale des outils Foundry. Les détails de la prise en charge de la langue pour la vidéo sont identiques à ceux de l’audio, voirGestion de la langue audio pour plus d’informations. Les détails de transcription suivants sont importants à prendre en compte :

    • Diarisation : Permet de distinguer les interlocuteurs d’une conversation dans le résultat, en attribuant des parties de la transcription à des interlocuteurs spécifiques.

    • Transcription multilingue : Génère des transcriptions multilingues. La langue/la zone régionale sont appliquées par phrase dans la transcription. Sortie des expressions lorsque "returnDetails": true est défini. En déviation par rapport à la détection de langue, cette fonctionnalité est activée lorsqu’aucune langue ou paramètres régionaux ne sont spécifiés ou si la langue est définie sur auto.

      Remarque

      Lorsque la transcription multilingue est utilisée, tous les fichiers avec des paramètres régionaux non pris en charge produisent un résultat basé sur les paramètres régionaux les plus proches pris en charge, ce qui est probablement incorrect. Ce résultat est un comportement connu. Évitez les problèmes de qualité de transcription en vous assurant de configurer des paramètres régionaux quand vous n’utilisez pas un paramètre régional pris en charge par la transcription multilingue.

    • Extraction d’images clés : Extrait les images clés des vidéos pour représenter chaque plan complètement, garantissant que chaque plan dispose de suffisamment d’images clés pour permettre un fonctionnement efficace de l’extraction de champ.

    • Détection de plan : Identifie les segments de la vidéo alignés avec les limites de plan lorsque cela est possible, permettant une modification et un reconditionnement précis du contenu avec des pauses correspondant exactement aux modifications existantes. La sortie est une liste d’horodatages en millisecondes en cameraShotTimesMs. La sortie est uniquement retournée lorsque "returnDetails": true est défini.

Extraction et segmentation de champ

Ensuite, les couches de modèle génératives signifient : balisage des scènes, synthèse des actions et découpage de séquences en segments selon votre requête. Les requêtes se transforment en données structurées dans le cadre de cette action.

Champs personnalisés

Modelez le résultat pour qu'il corresponde à votre vocabulaire professionnel. Utilisez un fieldSchema objet où chaque entrée définit le nom, le type et la description d’un champ. Au moment de l’exécution, le modèle génératif remplit ces champs pour chaque segment.

  • Gestion des ressources multimédias :

    • Catégorie vidéo : Aide les éditeurs et les producteurs à organiser le contenu, en le classant comme Actualités, Sports, Interview, Documentaire, Publicité, etc. Utile pour le balisage des métadonnées et accélérer le filtrage et la récupération de contenu.
    • Couleurs: Transmet l’ambiance et l’atmosphère, essentielles pour la cohérence narrative et l’engagement de la visionneuse. L’identification des thèmes de couleurs aide à trouver des clips correspondants pour un montage vidéo accéléré.
  • Publicités:

    • Marque: Identifie la présence de la marque, critique pour analyser l’impact publicitaire, la visibilité de la marque et l’association avec les produits. Cette fonctionnalité permet aux annonceurs d’évaluer la notoriété de la marque et de garantir la conformité aux directives de marque.
    • Catégories publicitaires : Classe les types de publicités par secteur, type de produit ou segment d’audience, qui prend en charge les stratégies de publicité ciblée, la catégorisation et l’analyse des performances.

Exemple :

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Champs description du visage

Remarque

Cette fonctionnalité est un accès limité ; les clients doivent demander de désactiver le flou de visage pour les modèles Azure OpenAI avec une demande de support Azure. En savoir plus sur Gérer une demande de support Azure.

La fonctionnalité d’extraction de champ peut éventuellement être améliorée pour fournir des descriptions détaillées des visages dans la vidéo. Cette fonctionnalité comprend des attributs tels que les cheveux du visage, l’expression faciale et la présence de célébrités, ce qui peut être crucial à diverses fins analytiques et d’indexation. Pour activer les fonctionnalités de description des visages définies disableFaceBlurring : true dans la configuration de l’analyseur.

Exemples :

  • Exemple de champ : facialHairDescription : Décrit le type de cheveux du visage (par exemple, beard, mustache, clean-shaven)
  • Exemple de champ : nameOfProminentPerson : Fournit un nom si possible d’une célébrité dans la vidéo (par exemple, Satya Nadella)
  • Exemple de champ : faceSmilingFrowning : Fournit une description indiquant si une personne sourit ou fronce les sourcils.

Mode de segmentation

Remarque

La définition de la segmentation utilise le modèle génératif, consommant des jetons même si aucun champ n’est défini.

Content Understanding offre deux façons de découper une vidéo, ce qui vous permet d’obtenir la sortie dont vous avez besoin pour des vidéos entières ou des clips courts. Vous pouvez utiliser ces options en définissant la enableSegment propriété sur un analyseur personnalisé.

  • Vidéo entière : enableSegment : false le service traite l’intégralité du fichier vidéo en tant que segment unique et extrait les métadonnées pendant toute sa durée.

    Cas d’usage :

    • Vérifications de conformité qui recherchent des problèmes de sécurité de marque spécifiques n’importe où dans une publicité
    • résumés descriptifs détaillés
  • Segmentation personnalisée : enableSegment : true vous décrivez la logique en langage naturel et le modèle crée des segments à mettre en correspondance. Définissez contentCategories avec une chaîne décrivant la façon dont vous souhaitez segmenter la vidéo. Custom permet des segments de longueur variable de secondes à minutes en fonction de l’invite. Dans cette version, la vidéo ne prend en charge qu’un seul contentCategories objet.

    Exemple: Divisez une émission de nouvelles en histoires.

    {
      "config": {
        "enableSegment": true,
        "contentCategories": {
          "news-story": { 
          "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.",
          "analyzerId": "NewsAnalyzer"
          }         
        }
      }
    }
    

Principaux avantages

Content Understanding offre plusieurs avantages clés par rapport aux autres solutions d'analyse vidéo :

  • Analyse multi-images basée sur des segments : Identifiez les actions, les événements, les rubriques et les thèmes en analysant plusieurs images à partir de chaque segment vidéo, plutôt que des images individuelles.
  • Personnalisation: Personnalisez les champs et la segmentation que vous générez en modifiant le schéma conformément à votre cas d’usage spécifique.
  • Modèles dégénérateurs : Décrivez en langage naturel le contenu que vous souhaitez extraire, et Content Understanding utilise des modèles génératifs pour extraire ces métadonnées.
  • Prétraitement optimisé : Effectuez plusieurs étapes de prétraitement d’extraction de contenu, telles que la transcription et la détection des scènes, optimisées pour fournir un contexte riche aux modèles générateurs d’IA.

Contraintes techniques et limitations

Limitations spécifiques du traitement vidéo à garder à l’esprit :

  • Échantillonnage d’images (~ 1 FPS) : l’analyseur inspecte environ une image par seconde. Des mouvements rapides ou des événements à image unique peuvent être manqués.
  • Résolution d’images (512 × 512 px) : les images échantillonnées sont redimensionnées à 512 pixels carrés. Les petits textes ou les objets distants peuvent être perdus.
  • Parole : seuls les mots prononcés sont transcrits. La musique, les effets sonores et le bruit ambiant sont ignorés.

Critères des entrées

Pour connaître les formats pris en charge, consultez quotas et limites de service.

Langues et régions prises en charge

Consultez la prise en charge de la langue et de la région.

Sécurité et confidentialité des données

Comme avec tous les outils Foundry, consultez la documentation sur les données, la protection et la confidentialité de Microsoft.

Important

Si vous traitez des données biométriques (par exemple, activez la description du visage), vous devez respecter toutes les exigences en matière de notification, de consentement et de suppression en vertu des lois applicables. Consultez les données et la confidentialité pour la reconnaissance faciale.