Freigeben über


AudioVisual-Analyse: Markdown-Darstellung

Azure Content Understanding in Foundry Tools wandelt unstrukturierte Audio- und Videoinhalte in reich formatierte GitHub Flavored Markdown um, wobei zeitliche Beziehungen und Inhaltsstruktur für die genaue nachgeschaltete Verwendung beibehalten werden. In diesem Dokument wird beschrieben, wie jedes audiovisuelle Inhaltselement in Markdown für Audio- und Videoeingaben dargestellt wird.

Überblick

Die Markdowndarstellung von Content Understanding generiert strukturierte Markdowns, die Anzeigedauerinformationen und Transkriptionen enthalten.

Das Markdownformat unterscheidet sich je nach Eingabetyp:

  • Audioeingaben: Konzentrieren Sie sich auf Transkriptinhalte, Anzeigedauer und Sprecherinformationen
  • Videoeingaben: Enthalten alle Audio-Komponenten plus Keyframes

Ausführliche Informationen zu unterstützten Dateitypen, Dateigrößenbeschränkungen und anderen Einschränkungen finden Sie unter Dienstkontingente und Grenzwerte.

Dokumentstruktur und Metadaten

Kopfzeileninformationen

Alle audiovisuellen Inhalte beginnen mit einer Kopfzeile, die den Inhaltstyp, die Dauer und die Dimensionen (für Video) identifiziert.

Beispiel für Audioheader:

# Audio: 00:00.000 => 04:23.773

Beispiel für Eine Videokopfzeile:

# Video: 00:00.000 => 00:42.520
Width: 640
Height: 360

Die Kopfzeile stellt wesentliche Metadaten bereit:

  • Inhaltstyp (Audio oder Video)
  • Gesamtdauer im HH:MM:SS.mmm Format
  • Videoabmessungen in Pixeln (nur Video)

Darstellung des Transkripts

WebVTT-Format

Transkripte werden mithilfe des standardmäßigen WebVTT-Formats (Web Video Text Tracks) dargestellt, wobei sprecheridentifizierte Und präzise Zeitinformationen erhalten bleiben. Dieses Format ist für Audio- und Videoeingaben konsistent.

Transkriptbeispiel:

Transcript

WEBVTT

00:02.480 --> 00:04.720
<Speaker 1>Need help redeeming a code on your Xbox?

00:05.440 --> 00:06.840
<Speaker 1>Follow these quick steps.

00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.

Sprecheridentifikation

Sprecher werden in dem WebVTT-Transkript mithilfe des Formats <v Speaker N> oder <Speaker N> identifiziert. Inhaltsverständnis führt automatisch eine Sprecherdiarisierung durch, um zwischen verschiedenen Lautsprechern in der Audiospur zu unterscheiden.

Visuelle Elemente (nur Video)

Schlüsselframes

Keyframes stellen erhebliche visuelle Momente dar, die aus der Videozeitachse extrahiert wurden. Sie werden als Markdown-Bildverweise mit präzisen Zeitstempeln eingebettet.

Beispiel für Keyframes:

Key Frames
- 00:00.400 ![](keyFrame.400.jpg)
- 00:01.800 ![](keyFrame.1800.jpg)
- 00:02.840 ![](keyFrame.2840.jpg)
- 00:03.880 ![](keyFrame.3880.jpg)
- 00:04.920 ![](keyFrame.4920.jpg)

Keyframe-Eigenschaften

  • Zeitstempel im HH:MM:SS.mmm Format
  • Bildverweis im Standard-Markdown-Format
  • Automatisch bei signifikanten visuellen Übergängen extrahiert

Vollständiges Markdownbeispiel

Im Folgenden sehen Sie ein vollständiges Beispiel für das für ein Video generierte Markdown.

# Video: 00:00.960 => 00:25.040

Key Frames
- 00:08.040 ![](keyFrame.8040.jpg)
- 00:16.360 ![](keyFrame.16360.jpg)
- 00:19.480 ![](keyFrame.19480.jpg)

Transcript
```
WEBVTT

00:08.960 --> 00:15.680
<Speaker 1>Press the Xbox button on your controller to open the guide while signed into the console with the account you want to apply the code to.

00:16.720 --> 00:18.560
<Speaker 1>From the guide, select Store.

00:19.520 --> 00:25.040
<Speaker 1>Once opened, press the View button on the controller to open the side menu and select Redeem.
```

Nächste Schritte