Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Met Azure Content Understanding kunt u een standaardset videometagegevens genereren en aangepaste velden maken voor uw specifieke use case met behulp van generatieve modellen. Met Inhoudskennis kunt u werkstromen voor videoassets beheren, categoriseren, ophalen en bouwen. Het verbetert uw mediaassetbibliotheek, ondersteunt functies zoals het genereren van highlights, categoriseert inhoud en faciliteert toepassingen zoals Retrieval-Augmented Generation (RAG).
De vooraf gebouwde video-analyzer (prebuilt-videoAnalysis) levert RAG-klaar output. In Markdown wordt het volgende uitgevoerd:
- Afschrift: Inlinetranscripties in standaard WEBVTT-indeling
- Sleutelframes: Geordende sleutelframeminiaturen die diepere analyse mogelijk maken
En het JSON-schema bevat meer details uit de visuele analyse.
- Beschrijving: Beschrijvingen van natuurlijke taalsegmenten met visuele en spraakcontext
- Segmentatie: Automatische scènesegmentatie die de video opsplitst in logische segmenten op basis van categorieën die u definieert
Deze indeling kan rechtstreeks in een vectoropslag worden geplaatst om een agent- of RAG-werkstroom te activeren. Er is geen naverwerking vereist.
Van daaruit kunt u de analyse aanpassen voor meer verfijnde controle van de uitvoer. U kunt aangepaste velden en segmenten definiëren. Met aanpassing kunt u de volledige kracht van generatieve modellen gebruiken om diepe inzichten te verkrijgen uit de visuele en audiodetails van de video.
Met aanpassing kunt u bijvoorbeeld het volgende doen:
- Aangepaste velden definiëren: om te bepalen welke producten en merken worden gezien of vermeld in de video.
- Aangepaste segmenten genereren: om een nieuwsuitzending te segmenteren in hoofdstukken op basis van de onderwerpen of nieuwsberichten die worden besproken.
-
Identificeer prominente personen met behulp van gezichtsherkenning: zodat klanten beroemdheden in opnamen met naam en titel kunnen voorzien op basis van de wereldkennis van het generatieve model, bijvoorbeeld
Satya Nadella.
Waarom Inhoudskennis gebruiken voor video?
Inhoudsbegrip voor video biedt brede mogelijkheden. U kunt bijvoorbeeld metagegevens aanpassen om specifieke scènes in een trainingsvideo te taggen, zodat werknemers belangrijke secties gemakkelijker kunnen vinden en bekijken. U kunt ook aanpassing van metagegevens gebruiken om productplaatsing te identificeren in promotievideo's, waardoor marketingteams merkblootstelling kunnen analyseren. Andere toepassingen:
- Media en entertainment uitzenden: Beheer grote bibliotheken met shows, films en clips door gedetailleerde metagegevens voor elke asset te genereren.
- Onderwijs en e-learning: Indexeer en haal specifieke momenten op in educatieve video's of lezingen.
- Bedrijfstraining: Organiseer trainingsvideo's op belangrijke onderwerpen, scènes of belangrijke momenten.
- Marketing en reclame: Analyseer promotievideo's om productplaatsingen, merkuitingen en belangrijke berichten te extraheren.
Voorbeeld van vooraf samengestelde videoanalyse
Met de vooraf samengestelde videoanalyse (prebuilt-videoSearch) kunt u een video uploaden en een onmiddellijk bruikbare kennisasset verkrijgen. De service verpakt de inhoud in rijk opgemaakte Markdown en JSON. Met dit proces kan uw zoekindex of chatagent de inhoud opnemen zonder aangepaste lijmcode.
Roep bijvoorbeeld de analyzer aan die is ontworpen voor Retrieval-augmented generation voor video
prebuilt-videoSearch. Zie de quickstart voor de REST API voor meer informatie.Vervolgens resulteert het analyseren van een reclamevideo van 30 seconden in de volgende uitvoer:
# Video: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Video: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
Stapsgewijze handleiding
Zie de volgende stappen voor RAG in video met behulp van Content Understanding.
RAG op video met Azure Content Understanding
Capaciteiten
Opmerking
Mogelijkheden voor gezichtsidentificatie en groepering zijn alleen beschikbaar in de preview-API-versie en zijn niet opgenomen in de GA-release.
Onder de motorkap transformeren twee fasen onbewerkte pixels in zakelijke inzichten. In het onderstaande diagram ziet u hoe extractiefeeds worden gegenereerd, zodat elke downstreamstap de context heeft die nodig is.
De service werkt in twee fasen. De eerste fase, inhoudextractie, omvat het vastleggen van basismetagegevens, zoals transcripties en opnamen. De tweede fase, veldextractie, maakt gebruik van een generatief model om aangepaste velden te produceren en segmentatie uit te voeren.
Mogelijkheden voor inhoudextractie
De eerste pass gaat over het extraheren van een eerste set details: wie er spreekt en waar de overgangen zich bevinden. Er wordt een solide ruggengraat van metagegevens gecreëerd waar latere stappen over kunnen redeneren.
Transcriptie: Converteert gespreksaudio naar doorzoekbare en analyseerbare transcripties op basis van tekst in WebVTT-indeling. Tijdstempels op zinsniveau zijn beschikbaar als
"returnDetails": trueis ingesteld. Content Understanding ondersteunt de volledige set Azure Speech in Foundry Tools voor spraak-naar-teksttalen. Details van taalondersteuning voor video zijn hetzelfde als audio. ZieAudio Language Handling voor meer informatie. De volgende transcriptiedetails zijn belangrijk om rekening mee te houden:Diarisatie: Onderscheid maken tussen sprekers in een gesprek in de output, waarbij gedeeltes van de uitschrijving aan specifieke sprekers worden toegeschreven.
Meertalige transcriptie: Hiermee worden meertalige transcripties gegenereerd. Taal/landinstelling wordt toegepast per woordgroep in het transcript. Zinnen worden weergegeven wanneer
"returnDetails": trueis ingesteld. Afwijken van taaldetectie is deze functie ingeschakeld wanneer er geen taal/landinstelling is opgegeven of als taal is ingesteld opauto.Opmerking
Wanneer meertalige transcriptie wordt gebruikt, produceren bestanden met niet-ondersteunde landinstellingen een resultaat op basis van de dichtstbijzijnde ondersteunde landinstelling, wat waarschijnlijk onjuist is. Dit resultaat is een bekend fenomeen. Vermijd kwaliteitsproblemen met transcripties door ervoor te zorgen dat u lokale instellingen configureert als u geen gebruikmaakt van door meertalige transcriptie ondersteunde lokale instellingen.
Sleutelframeextractie: Extraheert sleutelframes van video's om elke opname volledig weer te geven, zodat elke opname voldoende sleutelframes heeft om veldextractie effectief te laten werken.
Schotdetectie: Identificeert segmenten van de video die waar mogelijk zijn uitgelijnd met opnamegrenzen, waardoor inhoud nauwkeurig kan worden bewerkt en opnieuw kan worden verpakt met exacte bestaande bewerkingen. De uitvoer is een lijst met tijdstempels in milliseconden in
cameraShotTimesMs. De uitvoer wordt alleen geretourneerd wanneer"returnDetails": trueis ingesteld.
Veldextractie en segmentatie
Vervolgens geeft het generatieve model betekenis: scènes taggen, acties samenvatten en beelden in segmenten verdelen per aanvraag. Met deze actie worden prompts omgezet in gestructureerde gegevens.
Aangepaste velden
Vorm de uitvoer zodat deze overeenkomt met uw zakelijke terminologie. Gebruik een object waarin elke vermelding de fieldSchema naam, het type en de beschrijving van een veld definieert. Tijdens runtime vult het generatieve model deze velden voor elk segment.
Media assetbeheer:
- Videocategorie: Helpt editors en producenten inhoud te organiseren door deze te classificeren als Nieuws, Sport, Interview, Documentaire, Advertentie, enzovoort. Handig voor het taggen van metagegevens en het sneller filteren en ophalen van inhoud.
- Kleurenschema: Geeft stemming en sfeer, essentieel voor narratieve consistentie en kijkerbetrokkenheid. Het identificeren van kleurthema's helpt bij het vinden van overeenkomende clips voor versnelde videobewerking.
Reclame:
- Merk: Identificeert merk aanwezigheid, essentieel voor het analyseren van advertentie-impact, merkzichtbaarheid en koppeling met producten. Met deze mogelijkheid kunnen adverteerders merkstatus beoordelen en naleving van huisstijlrichtlijnen garanderen.
- Advertentiecategorieën: Categoriseert advertentietypen per branche, producttype of doelgroepsegment, dat ondersteuning biedt voor gerichte advertentiestrategieën, categorisatie en prestatieanalyse.
Voorbeeld:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
Velden voor gezichtsbeschrijving
Opmerking
Deze functie heeft beperkte toegang; klanten moeten vragen om gezichts vervagen voor Azure OpenAI-modellen uit te schakelen met een Azure-ondersteuningsaanvraag. Meer informatie over het beheren van een Azure-ondersteuningsaanvraag.
De mogelijkheid voor veldextractie kan eventueel worden uitgebreid om gedetailleerde beschrijvingen van gezichten in de video te bieden. Deze mogelijkheid omvat kenmerken zoals gezichtshaar, gezichtsuitdrukking en de aanwezigheid van beroemdheden, die cruciaal kunnen zijn voor verschillende analytische en indexeringsdoeleinden. Om de gezichtsbeschrijvingsmogelijkheden in te schakelen, stelt u disableFaceBlurring : true in de analyseconfiguratie in.
Voorbeelden:
-
Voorbeeldveld: facialHairDescription: Beschrijft het type gezichtshaar (bijvoorbeeld
beard,mustache,clean-shaven) -
Voorbeeldveld: nameOfProminentPerson: Geeft een naam indien mogelijk van een beroemdheid in de video (bijvoorbeeld
Satya Nadella) - Voorbeeldveld: faceSmilingFrowning: Geeft een beschrijving van of een persoon glimlacht of frownen
Segmentatiemodus
Opmerking
Het instellen van segmentatie gebruikt het generatieve model, waarbij tokens worden verbruikt, zelfs als er geen velden zijn gedefinieerd.
Content Understanding biedt twee manieren om een video te segmenteren, zodat u de uitvoer krijgt die u nodig hebt voor hele video's of korte clips. U kunt deze opties gebruiken door de enableSegment eigenschap in te stellen op een aangepaste analysator.
Hele video :
enableSegment : falsede service behandelt het hele videobestand als één segment en extraheert metagegevens gedurende de volledige duur.Gebruiksvoorbeelden:
- Nalevingscontroles die zoeken naar specifieke brandveiligheidsproblemen overal in een advertentie
- beschrijvende, volledige samenvattingen
Aangepaste segmentatie :
enableSegment : trueu beschrijft de logica in natuurlijke taal en het model maakt segmenten die overeenkomen. InstellencontentCategoriesmet een tekenreeks die beschrijft hoe u de video wilt segmenteren. Aangepast maakt segmenten van verschillende lengte van seconden tot minuten mogelijk, afhankelijk van de prompt. In deze versie ondersteunt video slechts ééncontentCategoriesobject.Voorbeeld: Een nieuwsuitzending opsplitsen in verhalen.
{ "config": { "enableSegment": true, "contentCategories": { "news-story": { "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.", "analyzerId": "NewsAnalyzer" } } } }
Belangrijkste voordelen
Content Understanding biedt verschillende belangrijke voordelen in vergelijking met andere oplossingen voor videoanalyse:
- Analyse van meerdere frames op basis van segmenten: Identificeer acties, gebeurtenissen, onderwerpen en thema's door meerdere frames uit elk videosegment te analyseren in plaats van afzonderlijke frames.
- Aanpassing: Pas de velden en segmentatie die u genereert aan door het schema te wijzigen in overeenstemming met uw specifieke use-case.
- Generatieve modellen: Beschrijf in natuurlijke taal welke inhoud u wilt extraheren en Content Understanding maakt gebruik van generatieve modellen om die metagegevens te extraheren.
- Geoptimaliseerde voorverwerking: Voer verschillende stappen voor het extraheren van inhoud uit, zoals transcriptie en scènedetectie, geoptimaliseerd om rijke context te bieden aan AI-generatieve modellen.
Technische beperkingen en limitaties
Specifieke beperkingen van videoverwerking om rekening mee te houden:
- Frame sampling (~ 1 FPS): De analyzer bekijkt ongeveer één frame per seconde. Snelle bewegingen of gebeurtenissen met één frame kunnen worden gemist.
- Frameresolutie (512 × 512 px): voorbeeldframes worden aangepast tot 512 pixels vierkant. Kleine tekst of verre objecten kunnen verloren gaan.
- Spraak: Alleen gesproken woorden worden getranscribeerd. Muziek, geluidseffecten en omgevingsgeluiden worden genegeerd.
Vereisten voor invoer
Zie Servicequota en -limieten voor ondersteunde indelingen.
Ondersteunde talen en regio's
Zie taal- en regioondersteuning.
Gegevensprivacy en -beveiliging
Net als bij alle Foundry Tools raadpleegt u de documentatie over gegevens, beveiliging en privacy van Microsoft.
Belangrijk
Als u biometrische gegevens verwerkt (bijvoorbeeld Gezichtsbeschrijving inschakelen), moet u voldoen aan alle vereisten voor kennisgeving, toestemming en verwijdering onder toepasselijke wetgeving. Zie gegevens en privacy voor Face.
Verwante inhoud
Probeer video's te analyseren in Content Understanding Studio.
Bekijk de quickstart voor Content Understanding Studio.
Meer informatie over het analyseren van video-inhoud met behulp van analysesjablonen.
Voorbeelden: