Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Azure Content Understanding in Foundry Tools wandelt unstrukturierte Audio- und Videoinhalte in reich formatierte GitHub Flavored Markdown um, wobei zeitliche Beziehungen und Inhaltsstruktur für die genaue nachgeschaltete Verwendung beibehalten werden. In diesem Dokument wird beschrieben, wie jedes audiovisuelle Inhaltselement in Markdown für Audio- und Videoeingaben dargestellt wird.
Überblick
Die Markdowndarstellung von Content Understanding generiert strukturierte Markdowns, die Anzeigedauerinformationen und Transkriptionen enthalten.
Das Markdownformat unterscheidet sich je nach Eingabetyp:
- Audioeingaben: Konzentrieren Sie sich auf Transkriptinhalte, Anzeigedauer und Sprecherinformationen
- Videoeingaben: Enthalten alle Audio-Komponenten plus Keyframes
Ausführliche Informationen zu unterstützten Dateitypen, Dateigrößenbeschränkungen und anderen Einschränkungen finden Sie unter Dienstkontingente und Grenzwerte.
Dokumentstruktur und Metadaten
Kopfzeileninformationen
Alle audiovisuellen Inhalte beginnen mit einer Kopfzeile, die den Inhaltstyp, die Dauer und die Dimensionen (für Video) identifiziert.
Beispiel für Audioheader:
# Audio: 00:00.000 => 04:23.773
Beispiel für Eine Videokopfzeile:
# Video: 00:00.000 => 00:42.520
Width: 640
Height: 360
Die Kopfzeile stellt wesentliche Metadaten bereit:
- Inhaltstyp (
AudiooderVideo) - Gesamtdauer im
HH:MM:SS.mmmFormat - Videoabmessungen in Pixeln (nur Video)
Darstellung des Transkripts
WebVTT-Format
Transkripte werden mithilfe des standardmäßigen WebVTT-Formats (Web Video Text Tracks) dargestellt, wobei sprecheridentifizierte Und präzise Zeitinformationen erhalten bleiben. Dieses Format ist für Audio- und Videoeingaben konsistent.
Transkriptbeispiel:
Transcript
WEBVTT
00:02.480 --> 00:04.720
<Speaker 1>Need help redeeming a code on your Xbox?
00:05.440 --> 00:06.840
<Speaker 1>Follow these quick steps.
00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.
Sprecheridentifikation
Sprecher werden in dem WebVTT-Transkript mithilfe des Formats <v Speaker N> oder <Speaker N> identifiziert. Inhaltsverständnis führt automatisch eine Sprecherdiarisierung durch, um zwischen verschiedenen Lautsprechern in der Audiospur zu unterscheiden.
Visuelle Elemente (nur Video)
Schlüsselframes
Keyframes stellen erhebliche visuelle Momente dar, die aus der Videozeitachse extrahiert wurden. Sie werden als Markdown-Bildverweise mit präzisen Zeitstempeln eingebettet.
Beispiel für Keyframes:
Key Frames
- 00:00.400 
- 00:01.800 
- 00:02.840 
- 00:03.880 
- 00:04.920 
Keyframe-Eigenschaften
- Zeitstempel im
HH:MM:SS.mmmFormat - Bildverweis im Standard-Markdown-Format
- Automatisch bei signifikanten visuellen Übergängen extrahiert
Vollständiges Markdownbeispiel
Im Folgenden sehen Sie ein vollständiges Beispiel für das für ein Video generierte Markdown.
# Video: 00:00.960 => 00:25.040
Key Frames
- 00:08.040 
- 00:16.360 
- 00:19.480 
Transcript
```
WEBVTT
00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.
00:16.720 --> 00:18.560
<Speaker 1>From the guide, select Store.
00:19.520 --> 00:25.040
<Speaker 1>Once opened, press the View button on the controller to open the side menu and select Redeem.
```
Nächste Schritte
- Testen Sie die Analyse von Videos im Content Understanding Studio.
- Sehen Sie sich die Schnellstartanleitung von Content Understanding Studio an.
- Erfahren Sie mehr über das Analysieren von Videoinhalten mithilfe von Analysevorlagen.
- Überprüfen Sie Codebeispiele: Videoanalyse mit Segmenten.
- Ausführliche Informationen zu allen unterstützten Elementen finden Sie in der vollständigen Dokumentation zu audiovisuellen Elementen .