Freigeben über


AssemblyAI (Vorschau)

Transkribieren und Extrahieren von Daten aus Audio mithilfe der Speech AI von AssemblyAI.

Dieser Connector ist in den folgenden Produkten und Regionen verfügbar:

Dienstleistung Class Regions
Copilot Studio Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Logik-Apps Norm Alle Logik-Apps-Regionen mit Ausnahme der folgenden Bereiche:
     – Azure Government-Regionen
     - Azure China-Regionen
     - US Department of Defense (DoD)
Power Apps Premium Alle Power Apps-Regionen mit Ausnahme der folgenden:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Power Automate Premium Alle Power Automate-Regionen mit Ausnahme der folgenden Bereiche:
     - US Government (GCC)
     - US Government (GCC High)
     - China Cloud betrieben von 21Vianet
     - US Department of Defense (DoD)
Kontakt
Name Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Connectormetadaten
Herausgeber AssemblyAI
Webseite https://www.assemblyai.com
Datenschutzrichtlinie https://www.assemblyai.com/legal/privacy-policy
Kategorien Künstliche Intelligenz

Mit dem AssemblyAI Connector können Sie die Modelle von AssemblyAI verwenden, um Audiodaten zu verarbeiten, indem Sie sie mit Spracherkennungsmodellen transkribieren, mit Audiointelligenzmodellen analysieren und generative Features mit LLMs erstellen.

  • Sprach-zu-Text , einschließlich vieler konfigurierbarer Features, z. B. Sprecherdiarisierung, benutzerdefinierte Schreibweise, benutzerdefiniertes Vokabular usw.
  • AudioIntelligenzmodelle sind zusätzliche KI-Modelle verfügbar und über die Transkriptionskonfiguration konfiguriert.
  • Mit LeMUR können Sie verschiedene LLM-Modelle auf Ihre Transkripte anwenden, ohne ihre eigene RAG-Infrastruktur für sehr große Transkripte erstellen zu müssen.

Voraussetzungen

Sie benötigen Folgendes, um fortzufahren:

So erhalten Sie Anmeldeinformationen

Sie können kostenlos einen AssemblyAI-API-Schlüssel abrufen, indem Sie sich für ein Konto registrieren und den API-Schlüssel aus dem Dashboard kopieren.

Erste Schritte mit Ihrem Connector

Führen Sie die folgenden Schritte aus, um Audio mithilfe des AssemblyAI-Connectors zu transkribieren.

Hochladen einer Datei

Um eine Audiodatei mit AssemblyAI zu transkribieren, muss die Datei für AssemblyAI zugänglich sein. Wenn auf Ihre Audiodatei bereits über eine URL zugegriffen werden kann, können Sie Ihre vorhandene URL verwenden.

Andernfalls können Sie die Upload a File Aktion verwenden, um eine Datei in AssemblyAI hochzuladen. Sie erhalten eine URL für Ihre Datei, die nur zum Transkribieren mit Ihrem API-Schlüssel verwendet werden kann. Nachdem Sie die Datei transkribiert haben, wird die Datei von den Servern von AssemblyAI entfernt.

Audio transkribieren

Um Ihr Audio zu transkribieren, konfigurieren Sie den Audio URL Parameter mithilfe ihrer Audiodatei-URL. Konfigurieren Sie dann die zusätzlichen Parameter, um weitere Spracherkennungsfeatures und Audiointelligenzmodelle zu ermöglichen.

Das Ergebnis der Transcribe Audio-Aktion ist ein Transkript in der Warteschlange, das sofort verarbeitet wird. Um die vollständige Transkription zu erhalten, haben Sie zwei Optionen:

  1. Handle the Transcript Ready Webhook
  2. Abrufen des Transkriptstatus

Handle the Transcript Ready Webhook

Wenn Sie den Webhook nicht mit Logic Apps oder Power Automate behandeln möchten, konfigurieren Sie den Webhook URL Parameter in Ihrer Transcribe Audio Aktion, und implementieren Sie den Webhook nach der Webhook-Dokumentation von AssemblyAI.

Führen Sie die folgenden Schritte aus, um den Webhook mithilfe von Logik-Apps oder Power Automate zu verarbeiten:

  1. Erstellen einer separaten Logik-App oder eines Power Automate-Flusses

  2. Konfigurieren When an HTTP request is received als Trigger:

    • Legen Sie Who Can Trigger The Flow? auf Anyone fest.
    • Legen Sie folgendes Request Body JSON Schema fest:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Legen Sie Method auf POST fest.
  3. Fügen Sie eine AssemblyAI-Aktion Get Transcript hinzu, und übergeben Sie den transcript_id Auslöser an den Transcript ID Parameter.

  4. Bevor Sie etwas anderes tun, sollten Sie überprüfen, ob dies Status oder completederror. Fügen Sie eine Condition Aktion hinzu, die überprüft, ob die Status Ausgabe errorlautetGet Transcript:

    • Fügen Sie in der True Verzweigung eine Terminate Aktion hinzu.
      • Legen Sie die Status Einstellung auf Failed
      • Legen Sie die Code Einstellung auf Transcript Error
      • Übergeben Sie die Get Transcript Ausgabe Error an den Message Parameter.
    • Sie können die False Verzweigung leer lassen.

    Jetzt können Sie eine beliebige Aktion hinzufügen, nachdem sie den Condition Transkriptstatus completedkennen, und Sie können alle Ausgabeeigenschaften der Get Transcript Aktion abrufen.

  5. Speichern Sie Ihre Logik-App oder Ihren Flow. Dies HTTP URL wird für den When an HTTP request is received Trigger generiert. Kopieren Sie die Logik-App oder den HTTP URL ursprünglichen Fluss, und wechseln Sie zurück.

  6. Aktualisieren Sie die Transcribe Audio Aktion in Ihrer ursprünglichen Logic App oder Flow. Fügen Sie die HTTP URL zuvor kopierten Elemente in den Webhook URL Parameter ein, und speichern Sie sie.

Wenn der Transkriptstatus erfolgt completed oder error, sendet AssemblyAI eine HTTP POST-Anforderung an die Webhook-URL, die von Ihrer anderen Logik-App oder Ihrem Flow behandelt wird.

Alternativ zur Verwendung des Webhooks können Sie den Transkriptstatus abrufen, wie im nächsten Abschnitt erläutert.

Abrufen des Transkriptstatus

Sie können den Transkriptstatus mithilfe der folgenden Schritte abfragen:

  • Hinzufügen einer Initialize variable Aktion

    • Legen Sie Name auf transcript_status fest.
    • Legen Sie Type auf String fest.
    • Speichern sie aus Status der Transcribe Audio Ausgabe im Value Parameter.
  • Hinzufügen einer Do until Aktion

    • Konfigurieren Sie den Loop Until Parameter mit dem folgenden Fx-Code:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Dieser Code überprüft, ob die transcript_status Variable ist completed oder error.
    • Konfigurieren des Count Parameters für 86400
    • Konfigurieren des Timeout Parameters für PT24H

    Fügen Sie innerhalb der Do until Aktion die folgenden Aktionen hinzu:

    • Hinzufügen einer Delay Aktion, die auf eine Sekunde wartet
    • Fügen Sie eine Get Transcript Aktion hinzu, und übergeben Sie die IDTranscribe Audio Ausgabe an den Transcript ID Parameter.
    • Hinzufügen einer Set variable Aktion
      • Legen Sie Name auf transcript_status fest.
      • Status Übergeben der Get Transcript Ausgabe an den Value Parameter

    Die Do until Schleife wird fortgesetzt, bis die Transkription abgeschlossen ist oder ein Fehler aufgetreten ist.

  • Fügen Sie eine weitere Get Transcript Aktion wie zuvor hinzu, fügen Sie sie aber nach der Do until Schleife hinzu, damit ihre Ausgabe außerhalb des Do until Aktionsbereichs verfügbar wird.

Bevor Sie etwas anderes tun, sollten Sie überprüfen, ob das Transkript Status oder completederror. Fügen Sie eine Condition Aktion hinzu, die überprüft, ob folgendes transcript_status ist error:

  • Fügen Sie in der True Verzweigung eine Terminate Aktion hinzu.
    • Legen Sie Status auf Failed fest.
    • Legen Sie Code auf Transcript Error fest.
    • Übergeben Sie die Get Transcript Ausgabe Error an den Message Parameter.
  • Sie können die False Verzweigung leer lassen.

Jetzt können Sie eine beliebige Aktion hinzufügen, nachdem sie den Condition Transkriptstatus completedkennen, und Sie können alle Ausgabeeigenschaften der Get Transcript Aktion abrufen.

Weitere Aktivitäten hinzufügen

Nachdem Sie nun über eine abgeschlossene Transkription verfügen, können Sie viele andere Aktionen verwenden, die das ID Transkript übergeben, z. B.

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Bekannte Probleme und Einschränkungen

Derzeit sind keine bekannten Probleme vorhanden. Streaming speech-To-Text (Echtzeit) wird nicht unterstützt, da es nicht möglich ist, benutzerdefinierte Connectors zu verwenden.

Häufige Fehler und Abhilfemaßnahmen

Weitere Informationen zu Fehlern finden Sie in der AssemblyAI-Dokumentation.

Häufig gestellte Fragen

Häufig gestellte Fragen finden Sie in unserer Dokumentation.

Erstellen einer Verbindung

Der Connector unterstützt die folgenden Authentifizierungstypen:

Vorgabe Parameter zum Erstellen einer Verbindung. Alle Regionen Nicht teilbar

Vorgabe

Anwendbar: Alle Regionen

Parameter zum Erstellen einer Verbindung.

Dies ist keine freigabefähige Verbindung. Wenn die Power-App für einen anderen Benutzer freigegeben wird, wird ein anderer Benutzer aufgefordert, eine neue Verbindung explizit zu erstellen.

Name Typ Description Erforderlich
AssemblyAI-API-Schlüssel securestring Der AssemblyAI-API-Schlüssel zum Authentifizieren der AssemblyAI-API. Richtig

Drosselungsgrenzwerte

Name Aufrufe Verlängerungszeitraum
API-Aufrufe pro Verbindung 100 60 Sekunden

Aktionen

Abrufen von Absätzen in Transkript

Rufen Sie die Transkription nach Absätzen ab. Die API versucht, Ihre Transkription semantisch in Absätze zu segmentieren, um mehr leserfreundliche Transkripte zu erstellen.

Abrufen von Sätzen in Transkript

Rufen Sie die Transkription nach Sätzen ab. Die API versucht, das Transkript semantisch in Sätze zu segmentieren, um mehr leserfreundliche Transkripte zu erstellen.

Audio transkribieren

Erstellen Sie ein Transkript aus einer Mediendatei, auf die über eine URL zugegriffen werden kann.

Ausführen einer Aufgabe mit LeMUR

Verwenden Sie den LeMUR-Aufgabenendpunkt, um Ihre eigene LLM-Eingabeaufforderung einzugeben.

Hochladen einer Mediendatei

Laden Sie eine Mediendatei auf die Server von AssemblyAI hoch.

LeMUR-Antwort abrufen

Rufen Sie eine LeMUR-Antwort ab, die zuvor generiert wurde.

Löschen von LeMUR-Anforderungsdaten

Löschen Sie die Daten für eine zuvor übermittelte LeMUR-Anforderung. Die LLM-Antwortdaten sowie alle in der ursprünglichen Anforderung bereitgestellten Kontexte werden entfernt.

Redacted Audio abrufen

Rufen Sie das redacted Audio-Objekt ab, das den Status und die URL zum redacted Audio enthält.

Transkript abrufen

Rufen Sie die Transkriptressource ab. Das Transkript ist bereit, wenn der "Status" "abgeschlossen" ist.

Transkript löschen

Löschen Sie das Transkript. Beim Löschen wird die Ressource selbst nicht gelöscht, sondern die Daten aus der Ressource entfernt und als gelöscht markiert.

Transkriptionen auflisten

Dient zum Abrufen einer Liste von Transkriptionen, die Sie erstellt haben. Transkriptionen werden von der neuesten zur ältesten sortiert. Die vorherige URL verweist immer auf eine Seite mit älteren Transkriptionen.

Untertitel für Transkript abrufen

Exportieren Sie Ihre Transkription im SRT- oder VTT-Format, um sie mit einem Videoplayer für Untertitel und Untertitel zu verwenden.

Wörter in Transkript durchsuchen

Durchsuchen Sie das Transkript nach Schlüsselwörtern. Sie können nach einzelnen Wörtern, Zahlen oder Ausdrücken suchen, die bis zu fünf Wörter oder Zahlen enthalten.

Abrufen von Absätzen in Transkript

Rufen Sie die Transkription nach Absätzen ab. Die API versucht, Ihre Transkription semantisch in Absätze zu segmentieren, um mehr leserfreundliche Transkripte zu erstellen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Gibt zurück

Abrufen von Sätzen in Transkript

Rufen Sie die Transkription nach Sätzen ab. Die API versucht, das Transkript semantisch in Sätze zu segmentieren, um mehr leserfreundliche Transkripte zu erstellen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Gibt zurück

Audio transkribieren

Erstellen Sie ein Transkript aus einer Mediendatei, auf die über eine URL zugegriffen werden kann.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Audio-URL
audio_url True string

Die URL der zu transkribierten Audio- oder Videodatei.

Sprachcode
language_code string

Die Sprache Ihrer Audiodatei. Mögliche Werte finden Sie in unterstützten Sprachen. Der Standardwert ist "en_us".

Language Detection
language_detection boolean

Aktivieren Der automatischen Spracherkennung , entweder "true" oder "false".

Sprachmodell
speech_model string

Das für die Transkription zu verwendende Sprachmodell.

Unterstreichen
punctuate boolean

Automatische Interpunktion aktivieren, kann wahr oder falsch sein

Text formatieren
format_text boolean

Textformatierung aktivieren, kann wahr oder falsch sein

Entfluenzungen
disfluencies boolean

Transkribieren Sie Filler Words, wie "um", in Ihrer Mediendatei; kann wahr oder falsch sein

Dualer Kanal
dual_channel boolean

Aktivieren Der Dual-Kanal-Transkription kann wahr oder falsch sein.

Webhook-URL
webhook_url string

Die URL, an die Webhook-Anforderungen gesendet werden. Wir senden zwei verschiedene Arten von Webhook-Anforderungen. Eine Anforderung, wenn eine Transkription abgeschlossen oder fehlgeschlagen ist, und eine Anforderung, wenn die redacted Audio bereit ist, wenn redact_pii_audio aktiviert ist.

Webhook-Authentifizierungsheadername
webhook_auth_header_name string

Der Kopfzeilenname, der mit abgeschlossenen oder fehlgeschlagenen Webhook-Anforderungen gesendet werden soll

Webhook-Authentifizierungsheaderwert
webhook_auth_header_value string

Der Headerwert, der mit der Transkription zurück gesendet werden soll, oder fehlgeschlagene Webhook-Anforderungen für zusätzliche Sicherheit

Stichworten
auto_highlights boolean

Aktivieren von Schlüsselausdrücken, entweder wahr oder falsch

Audio starten von
audio_start_from integer

Der Zeitpunkt in Millisekunden, um mit dem Transkribieren in Ihrer Mediendatei zu beginnen

Audioende bei
audio_end_at integer

Der Zeitpunkt in Millisekunden, um das Transkribieren in Ihrer Mediendatei zu beenden

Word Boost
word_boost array of string

Die Liste des benutzerdefinierten Vokabulars zur Erhöhung der Transkriptionswahrscheinlichkeit für

Word-Boost-Ebene
boost_param string

Wie viel angegebene Wörter heraufzukurbeln

Profanität filtern
filter_profanity boolean

Das Filtern von Profanität aus dem transkribierten Text kann wahr oder falsch sein.

Redact PII
redact_pii boolean

Redact PII aus dem transkribierten Text mithilfe des Redact PII-Modells kann wahr oder falsch sein.

Redact PII Audio
redact_pii_audio boolean

Generieren Sie eine Kopie der ursprünglichen Mediendatei mit gesprochenem PII-Wert "beeped" aus, kann wahr oder falsch sein. Weitere Informationen finden Sie unter PII-Redaction.

Redact PII Audio Quality
redact_pii_audio_quality string

Steuert den Dateityp der von redact_pii_audio erstellten Audiodaten. Unterstützt derzeit MP3 (Standard) und WAV. Weitere Informationen finden Sie unter PII-Redaction.

Redact PII-Richtlinien
redact_pii_policies array of string

Die Liste der zu aktivierenden PII-Redaction-Richtlinien. Weitere Informationen finden Sie unter PII-Redaction.

Redact PII Substitution
redact_pii_sub string

Die Ersetzungslogik für erkannte PII kann "entity_name" oder "Hash" sein. Weitere Informationen finden Sie unter PII-Redaction.

Lautsprecherbeschriftungen
speaker_labels boolean

Aktivieren der Lautsprecher-Diarisierung, kann wahr oder falsch sein

Lautsprecher erwartet
speakers_expected integer

Teilt dem Lautsprecheretikettenmodell mit, wie viele Lautsprecher versucht werden sollen, bis zu 10 zu identifizieren. Weitere Details finden Sie unter Sprecherdiarisierung.

Inhaltsmoderation
content_safety boolean

Inhaltsmoderation aktivieren, kann wahr oder falsch sein.

Konfidenz der Inhaltsmoderation
content_safety_confidence integer

Der Konfidenzschwellenwert für das Inhaltsmoderationsmodell. Werte müssen zwischen 25 und 100 sein.

Themaerkennung
iab_categories boolean

Aktivieren der Themenerkennung, kann wahr oder falsch sein

Von
from True array of string

Zu ersetzende Wörter oder Ausdrücke

Bis
to True string

Word oder Ausdruck, durch das ersetzt werden soll

Sentiment Analysis
sentiment_analysis boolean

Aktivieren der Stimmungsanalyse, kann wahr oder falsch sein

Automatische Kapitel
auto_chapters boolean

Auto Kapitel aktivieren, kann wahr oder falsch sein

Entitätserkennung
entity_detection boolean

Aktivieren der Entitätserkennung, kann wahr oder falsch sein

Sprachschwellenwert
speech_threshold float

Ablehnen von Audiodateien, die weniger als diesen Bruchteil der Sprache enthalten. Gültige Werte befinden sich im Bereich [0, 1] einschließlich.

Zusammenfassung aktivieren
summarization boolean

Zusammenfassung aktivieren, kann wahr oder falsch sein

Zusammenfassungsmodell
summary_model string

Das Modell zum Zusammenfassen des Transkripts

Zusammenfassungstyp
summary_type string

Der Typ der Zusammenfassung

Benutzerdefinierte Themen aktivieren
custom_topics boolean

Aktivieren von benutzerdefinierten Themen, entweder wahr oder falsch

Benutzerdefinierte Themen
topics array of string

Die Liste der benutzerdefinierten Themen

Gibt zurück

Ein Transkriptobjekt

Body
Transcript

Ausführen einer Aufgabe mit LeMUR

Verwenden Sie den LeMUR-Aufgabenendpunkt, um Ihre eigene LLM-Eingabeaufforderung einzugeben.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Prompt
prompt True string

Der Text, der das Modell auffordert, eine gewünschte Ausgabe zu erzeugen, einschließlich eines beliebigen Kontexts, den Sie an das Modell übergeben möchten.

Transkript-IDs
transcript_ids array of uuid

Eine Liste der abgeschlossenen Transkriptionen mit Text. Bis zu maximal 100 Dateien oder 100 Stunden, je nachdem, welcher Wert niedriger ist. Verwenden Sie entweder transcript_ids oder input_text als Eingabe in LeMUR.

Eingabetext
input_text string

Benutzerdefinierte formatierte Transkriptdaten. Die maximale Größe ist das Kontextlimit des ausgewählten Modells, das standardmäßig auf 100000 festgelegt ist. Verwenden Sie entweder transcript_ids oder input_text als Eingabe in LeMUR.

Kontext
context string

Kontext zum Bereitstellen des Modells. Hierbei kann es sich um eine Zeichenfolge oder einen JSON-Wert in Freiform handelt.

Endgültiges Modell
final_model string

Das Modell, das nach der Komprimierung für die endgültige Eingabeaufforderung verwendet wird.

Maximale Ausgabegröße
max_output_size integer

Maximale Ausgabegröße in Token, bis zu 4000

Temperatur
temperature float

Die für das Modell zu verwendende Temperatur. Höhere Werte führen zu Antworten, die kreativer sind, niedrigere Werte sind konservativer. Kann ein beliebiger Wert zwischen 0,0 und 1,0 (einschließlich) sein.

Gibt zurück

Hochladen einer Mediendatei

Laden Sie eine Mediendatei auf die Server von AssemblyAI hoch.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Inhalt der Datei
file True binary

Die hochzuladende Datei.

Gibt zurück

LeMUR-Antwort abrufen

Rufen Sie eine LeMUR-Antwort ab, die zuvor generiert wurde.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
LeMUR-Anforderungs-ID
request_id True string

Die ID der LeMUR-Anforderung, die Sie zuvor gestellt haben. Dies würde in der Antwort der ursprünglichen Anforderung gefunden.

Gibt zurück

Löschen von LeMUR-Anforderungsdaten

Löschen Sie die Daten für eine zuvor übermittelte LeMUR-Anforderung. Die LLM-Antwortdaten sowie alle in der ursprünglichen Anforderung bereitgestellten Kontexte werden entfernt.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
LeMUR-Anforderungs-ID
request_id True string

Die ID der LeMUR-Anforderung, deren Daten Sie löschen möchten. Dies würde in der Antwort der ursprünglichen Anforderung gefunden.

Gibt zurück

Redacted Audio abrufen

Rufen Sie das redacted Audio-Objekt ab, das den Status und die URL zum redacted Audio enthält.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Gibt zurück

Transkript abrufen

Rufen Sie die Transkriptressource ab. Das Transkript ist bereit, wenn der "Status" "abgeschlossen" ist.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Gibt zurück

Ein Transkriptobjekt

Body
Transcript

Transkript löschen

Löschen Sie das Transkript. Beim Löschen wird die Ressource selbst nicht gelöscht, sondern die Daten aus der Ressource entfernt und als gelöscht markiert.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Gibt zurück

Ein Transkriptobjekt

Body
Transcript

Transkriptionen auflisten

Dient zum Abrufen einer Liste von Transkriptionen, die Sie erstellt haben. Transkriptionen werden von der neuesten zur ältesten sortiert. Die vorherige URL verweist immer auf eine Seite mit älteren Transkriptionen.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Limit
limit integer

Maximale Anzahl von Transkriptionen, die abgerufen werden sollen

Der Status
status string

Der Status Ihrer Transkription. Mögliche Werte sind in die Warteschlange eingereiht, verarbeitet, abgeschlossen oder fehler.

Erstellt am
created_on date

Abrufen von Transkriptionen, die an diesem Datum erstellt wurden

Vor ID
before_id uuid

Abrufen von Transkriptionen, die vor dieser Transkript-ID erstellt wurden

Nach ID
after_id uuid

Abrufen von Transkriptionen, die nach dieser Transkript-ID erstellt wurden

Nur gedrosselt
throttled_only boolean

Ruft nur eingeschränkte Transkriptionen ab, überschreibt den Statusfilter.

Gibt zurück

Eine Liste der Transkriptionen. Transkriptionen werden von der neuesten zur ältesten sortiert. Die vorherige URL verweist immer auf eine Seite mit älteren Transkriptionen.

Untertitel für Transkript abrufen

Exportieren Sie Ihre Transkription im SRT- oder VTT-Format, um sie mit einem Videoplayer für Untertitel und Untertitel zu verwenden.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Untertitelformat
subtitle_format True string

Format der Untertitel

Anzahl der Zeichen pro Beschriftung
chars_per_caption integer

Die maximale Anzahl von Zeichen pro Beschriftung

Gibt zurück

response
string

Wörter in Transkript durchsuchen

Durchsuchen Sie das Transkript nach Schlüsselwörtern. Sie können nach einzelnen Wörtern, Zahlen oder Ausdrücken suchen, die bis zu fünf Wörter oder Zahlen enthalten.

Parameter

Name Schlüssel Erforderlich Typ Beschreibung
Transkript-ID
transcript_id True string

ID des Transkripts

Wörter
words True array

Schlüsselwörter, nach der gesucht werden soll

Gibt zurück

Definitionen

RedactedAudioResponse

Name Pfad Typ Beschreibung
Der Status
status string

Der Status der bearbeiteten Audiodaten

Redacted Audio URL
redacted_audio_url string

Die URL der redacted Audiodatei

WordSearchResponse

Name Pfad Typ Beschreibung
Transkript-ID
id uuid

Die ID des Transkripts

Gesamtanzahl der Übereinstimmungen
total_count integer

Die Gesamtanzahl aller übereinstimmenen Instanzen. Bei wörtern 1 wurde z. B. 2 mal abgeglichen, und Wort 2 hat 3 Mal abgeglichen, total_count entspricht 5.

Übereinstimmungen
matches array of object

Die Übereinstimmungen der Suche

Text
matches.text string

Das übereinstimmene Wort

Anzahl
matches.count integer

Die Gesamtdauer, in der das Wort im Transkript enthalten ist

Zeitstempel
matches.timestamps array of array

Ein Array von Zeitstempeln

Zeitstempel
matches.timestamps array of integer

Ein Array von Zeitstempeln, die in Millisekunden als [start_time, end_time] strukturiert sind

Indizes
matches.indexes array of integer

Ein Array aller Indexspeicherorte für dieses Wort innerhalb des Wortarrays des abgeschlossenen Transkripts

Textaufzeichnung

Ein Transkriptobjekt

Name Pfad Typ Beschreibung
ID
id uuid

Der eindeutige Bezeichner Ihres Transkripts

Audio-URL
audio_url string

Die URL der Medien, die transkribiert wurden

Der Status
status string

Der Status Ihrer Transkription. Mögliche Werte sind in die Warteschlange eingereiht, verarbeitet, abgeschlossen oder fehler.

Sprachcode
language_code string

Die Sprache Ihrer Audiodatei. Mögliche Werte finden Sie in unterstützten Sprachen. Der Standardwert ist "en_us".

Language Detection
language_detection boolean

Gibt an, ob die automatische Spracherkennung aktiviert ist, entweder "true" oder "false".

Sprachmodell
speech_model string

Das für die Transkription zu verwendende Sprachmodell.

Text
text string

Die textbezogene Transkription Ihrer Mediendatei

Wörter
words array of object

Ein Array zeitlich sequenzieller Wortobjekte, eines für jedes Wort im Transkript. Weitere Informationen finden Sie unter Spracherkennung.

Zuverlässigkeit
words.confidence double
Start
words.start integer
ENDE
words.end integer
Text
words.text string
Lautsprecher
words.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

Äußerungen
utterances array of object

Wenn dual_channel oder speaker_labels aktiviert ist, wird eine Liste von turn-by-turn-utterance-Objekten angezeigt. Weitere Informationen finden Sie unter Sprecherdiarisierung.

Zuverlässigkeit
utterances.confidence double

Die Konfidenzbewertung für die Transkription dieser Äußerung

Start
utterances.start integer

Die Startzeit in Millisekunden der Äußerung in der Audiodatei

ENDE
utterances.end integer

Die Endzeit in Millisekunden der Äußerung in der Audiodatei

Text
utterances.text string

Der Text für diese Äußerung

Wörter
utterances.words array of object

Die Worte in der Äußerung.

Zuverlässigkeit
utterances.words.confidence double
Start
utterances.words.start integer
ENDE
utterances.words.end integer
Text
utterances.words.text string
Lautsprecher
utterances.words.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

Lautsprecher
utterances.speaker string

Der Sprecher dieser Äußerung, wobei jedem Sprecher ein sequenzieller Großbuchstabe zugewiesen wird - z. B. "A" für Sprecher A, "B" für Sprecher B usw.

Zuverlässigkeit
confidence double

Die Konfidenzbewertung für die Transkription zwischen 0,0 (niedrige Konfidenz) und 1,0 (hohe Vertrauenswürdigkeit)

Audiodauer
audio_duration integer

Die Dauer der Mediendatei dieses Transkriptobjekts in Sekunden

Unterstreichen
punctuate boolean

Gibt an, ob die automatische Interpunktion aktiviert ist, entweder "true" oder "false".

Text formatieren
format_text boolean

Gibt an, ob die Textformatierung aktiviert ist, entweder "true" oder "false".

Entfluenzungen
disfluencies boolean

Transkribieren Sie Filler Words, wie "um", in Ihrer Mediendatei; kann wahr oder falsch sein

Dualer Kanal
dual_channel boolean

Gibt an, ob die Transkription des dualen Kanals in der Transkriptionsanforderung aktiviert wurde, entweder "true" oder "false".

Webhook-URL
webhook_url string

Die URL, an die Webhook-Anforderungen gesendet werden. Wir senden zwei verschiedene Arten von Webhook-Anforderungen. Eine Anforderung, wenn eine Transkription abgeschlossen oder fehlgeschlagen ist, und eine Anforderung, wenn die redacted Audio bereit ist, wenn redact_pii_audio aktiviert ist.

Webhook-HTTP-Statuscode
webhook_status_code integer

Der Statuscode, den wir von Ihrem Server erhalten haben, wenn die Transkription abgeschlossene oder fehlgeschlagene Webhook-Anforderung übermittelt wurde, wenn eine Webhook-URL bereitgestellt wurde

Webhook-Authentifizierung aktiviert
webhook_auth boolean

Gibt an, ob Webhook-Authentifizierungsdetails angegeben wurden.

Webhook-Authentifizierungsheadername
webhook_auth_header_name string

Der Kopfzeilenname, der mit abgeschlossenen oder fehlgeschlagenen Webhook-Anforderungen gesendet werden soll

Geschwindigkeitsverstärkung
speed_boost boolean

Gibt an, ob die Geschwindigkeitsverstärkung aktiviert ist.

Stichworten
auto_highlights boolean

Gibt an, ob Schlüsselausdrücke aktiviert sind, entweder "true" oder "false".

Der Status
auto_highlights_result.status string

Entweder erfolgreich oder nicht verfügbar im seltenen Fall, dass das Modell fehlgeschlagen ist

Ergebnisse
auto_highlights_result.results array of object

Ein zeitlich sequenzielles Array von Key Phrasen

Anzahl
auto_highlights_result.results.count integer

Die Gesamtanzahl der Anzeige des Schlüsselausdrucks in der Audiodatei

Rang
auto_highlights_result.results.rank float

Die Gesamtrelevanz für die Gesamtaudiodatei dieses Schlüsselbegriffs - eine größere Zahl bedeutet relevanter

Text
auto_highlights_result.results.text string

Der Text selbst des Schlüsselbegriffs

Zeitstempel
auto_highlights_result.results.timestamps array of object

Der Zeitstempel des Schlüsselausdrucks

Start
auto_highlights_result.results.timestamps.start integer

Die Startzeit in Millisekunden

ENDE
auto_highlights_result.results.timestamps.end integer

Endzeit in Millisekunden

Audio starten von
audio_start_from integer

Der Zeitpunkt in Millisekunden in der Datei, an der die Transkription gestartet wurde

Audioende bei
audio_end_at integer

Der Zeitpunkt in Millisekunden in der Datei, an der die Transkription beendet wurde

Word Boost
word_boost array of string

Die Liste des benutzerdefinierten Vokabulars zur Erhöhung der Transkriptionswahrscheinlichkeit für

Ankurbeln
boost_param string

Der Wert des Worts "Boost-Parameter"

Profanität filtern
filter_profanity boolean

Gibt an, ob die Profanitätsfilterung aktiviert ist, entweder "true" oder "false".

Redact PII
redact_pii boolean

Gibt an, ob PII Redaction aktiviert ist, entweder wahr oder falsch.

Redact PII Audio
redact_pii_audio boolean

Gibt an, ob eine redacted-Version der Audiodatei generiert wurde, entweder "true" oder "false". Weitere Informationen finden Sie unter PII-Redaction.

Redact PII Audio Quality
redact_pii_audio_quality string

Steuert den Dateityp der von redact_pii_audio erstellten Audiodaten. Unterstützt derzeit MP3 (Standard) und WAV. Weitere Informationen finden Sie unter PII-Redaction.

Redact PII-Richtlinien
redact_pii_policies array of string

Die Liste der aktivierten PII-Redaction-Richtlinien, wenn PII Redaction aktiviert ist. Weitere Informationen finden Sie unter PII-Redaction.

Redact PII Substitution
redact_pii_sub string

Die Ersetzungslogik für erkannte PII kann "entity_name" oder "Hash" sein. Weitere Informationen finden Sie unter PII-Redaction.

Lautsprecherbeschriftungen
speaker_labels boolean

Gibt an, ob die Diarisierung des Lautsprechers aktiviert ist, kann wahr oder falsch sein.

Lautsprecher erwartet
speakers_expected integer

Teilen Sie dem Lautsprecheretikettenmodell mit, wie viele Lautsprecher es identifizieren soll, bis zu 10. Weitere Details finden Sie unter Sprecherdiarisierung.

Inhaltsmoderation
content_safety boolean

Gibt an, ob die Inhaltsmoderation aktiviert ist, kann wahr oder falsch sein.

Der Status
content_safety_labels.status string

Entweder erfolgreich oder nicht verfügbar im seltenen Fall, dass das Modell fehlgeschlagen ist

Ergebnisse
content_safety_labels.results array of object
Text
content_safety_labels.results.text string

Die Transkription des Abschnitts, der vom Inhaltsmoderationsmodell gekennzeichnet ist

Labels
content_safety_labels.results.labels array of object

Ein Array von Sicherheitsbezeichnungen, eines pro vertraulichen Thema, das im Abschnitt erkannt wurde

Etikett
content_safety_labels.results.labels.label string

Die Bezeichnung des vertraulichen Themas

Zuverlässigkeit
content_safety_labels.results.labels.confidence double

Die Konfidenzbewertung für das thema, das diskutiert wird, von 0 bis 1

Schweregrad
content_safety_labels.results.labels.severity double

Wie stark das Thema im Abschnitt behandelt wird, von 0 bis 1

Satzindex anfang
content_safety_labels.results.sentences_idx_start integer

Der Satzindex, an dem der Abschnitt beginnt

Satzindexende
content_safety_labels.results.sentences_idx_end integer

Der Satzindex, an dem der Abschnitt endet

Start
content_safety_labels.results.timestamp.start integer

Die Startzeit in Millisekunden

ENDE
content_safety_labels.results.timestamp.end integer

Endzeit in Millisekunden

Zusammenfassung
content_safety_labels.summary object

Eine Zusammenfassung der Konfidenzergebnisse der Inhaltsmoderation für die gesamte Audiodatei

Zusammenfassung der Schweregradbewertung
content_safety_labels.severity_score_summary object

Eine Zusammenfassung der Ergebnisse des Schweregrads der Inhaltsmoderation für die gesamte Audiodatei

Themaerkennung
iab_categories boolean

Gibt an, ob die Themenerkennung aktiviert ist, kann wahr oder falsch sein.

Der Status
iab_categories_result.status string

Entweder erfolgreich oder nicht verfügbar im seltenen Fall, dass das Modell fehlgeschlagen ist

Ergebnisse
iab_categories_result.results array of object

Ein Array von Ergebnissen für das Themaerkennungsmodell

Text
iab_categories_result.results.text string

Der Text in der Transkription, in dem ein erkanntes Thema auftritt

Labels
iab_categories_result.results.labels array of object
Relevance
iab_categories_result.results.labels.relevance double

Wie relevant das erkannte Thema ist eines erkannten Themas

Etikett
iab_categories_result.results.labels.label string

Die taxonomische IAB-Bezeichnung für die Bezeichnung des erkannten Themas, wobei > die supertopische/subtopische Beziehung bezeichnet wird

Start
iab_categories_result.results.timestamp.start integer

Die Startzeit in Millisekunden

ENDE
iab_categories_result.results.timestamp.end integer

Endzeit in Millisekunden

Zusammenfassung
iab_categories_result.summary object

Die Gesamtrelevanz des Themas für die gesamte Audiodatei

Benutzerdefinierte Rechtschreibungen
custom_spelling array of object

Anpassen, wie Wörter mithilfe von Werten geschrieben und formatiert werden

Von
custom_spelling.from array of string

Zu ersetzende Wörter oder Ausdrücke

Bis
custom_spelling.to string

Word oder Ausdruck, durch das ersetzt werden soll

Automatische Kapitel aktiviert
auto_chapters boolean

Gibt an, ob automatische Kapitel aktiviert sind, kann wahr oder falsch sein.

Kapitel
chapters array of object

Ein Array zeitlich sequenzieller Kapitel für die Audiodatei

Gist
chapters.gist string

Eine ultra-kurze Zusammenfassung (nur ein paar Wörter) des im Kapitel gesprochenen Inhalts

Schlagzeile
chapters.headline string

Eine einzelne Satzzusammenfassung des im Kapitel gesprochenen Inhalts

Zusammenfassung
chapters.summary string

Eine Absatzzusammenfassung des im Kapitel gesprochenen Inhalts

Start
chapters.start integer

Die Startzeit in Millisekunden für das Kapitel

ENDE
chapters.end integer

Die Startzeit in Millisekunden für das Kapitel

Zusammenfassung aktiviert
summarization boolean

Gibt an, ob "Zusammenfassung" aktiviert ist, entweder "true" oder "false".

Zusammenfassungstyp
summary_type string

Der Typ der generierten Zusammenfassung, wenn "Zusammenfassung" aktiviert ist

Zusammenfassungsmodell
summary_model string

Das Zusammenfassungsmodell, das zum Generieren der Zusammenfassung verwendet wird, wenn "Zusammenfassung" aktiviert ist

Zusammenfassung
summary string

Die generierte Zusammenfassung der Mediendatei, wenn "Zusammenfassung" aktiviert ist

Benutzerdefinierte Themen aktiviert
custom_topics boolean

Gibt an, ob benutzerdefinierte Themen aktiviert sind, entweder "true" oder "false".

Themen
topics array of string

Die Liste der benutzerdefinierten Themen, die bereitgestellt werden, wenn benutzerdefinierte Themen aktiviert sind

Sentiment Analysis
sentiment_analysis boolean

Gibt an, ob die Stimmungsanalyse aktiviert ist, kann wahr oder falsch sein.

Ergebnisse der Stimmungsanalyse
sentiment_analysis_results array of object

Ein Array von Ergebnissen für das Stimmungsanalysemodell, wenn es aktiviert ist. Weitere Informationen finden Sie unter "Stimmungsanalyse".

Text
sentiment_analysis_results.text string

Die Transkription des Satzes

Start
sentiment_analysis_results.start integer

Die Startzeit des Satzes in Millisekunden

ENDE
sentiment_analysis_results.end integer

Die Endzeit des Satzes in Millisekunden

Stimmung
sentiment_analysis_results.sentiment

Die festgestellte Stimmung für den Satz, einer von POSITIV, NEUTRAL, NEGATIV

Zuverlässigkeit
sentiment_analysis_results.confidence double

Der Konfidenzwert für die festgestellte Stimmung des Satzes von 0 bis 1

Lautsprecher
sentiment_analysis_results.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

Entitätserkennung
entity_detection boolean

Gibt an, ob die Entitätserkennung aktiviert ist, kann wahr oder falsch sein.

Entitäten
entities array of object

Ein Array von Ergebnissen für das Entitätserkennungsmodell, wenn es aktiviert ist. Weitere Informationen finden Sie unter Entitätserkennung.

Entitätstyp
entities.entity_type string

Der Typ der Entität für die erkannte Entität

Text
entities.text string

Der Text für die erkannte Entität

Start
entities.start integer

Die Startzeit in Millisekunden, zu der die erkannte Entität in der Audiodatei angezeigt wird

ENDE
entities.end integer

Die Endzeit in Millisekunden für die erkannte Entität in der Audiodatei

Sprachschwellenwert
speech_threshold float

Der Standardwert ist null. Ablehnen von Audiodateien, die weniger als diesen Bruchteil der Sprache enthalten. Gültige Werte befinden sich im Bereich [0, 1] einschließlich.

gedrosselt
throttled boolean

True, während eine Anforderung gedrosselt und falsch ist, wenn eine Anforderung nicht mehr gedrosselt wird

Fehler
error string

Fehlermeldung, warum die Transkription fehlgeschlagen ist

Sprachmodell
language_model string

Das Für das Transkript verwendete Sprachmodell

Akustisches Modell
acoustic_model string

Das akustische Modell, das für die Transkription verwendet wurde

SentencesResponse

Name Pfad Typ Beschreibung
Transkript-ID
id uuid
Zuverlässigkeit
confidence double
Audiodauer
audio_duration number
Sätze
sentences array of object
Text
sentences.text string
Start
sentences.start integer
ENDE
sentences.end integer
Zuverlässigkeit
sentences.confidence double
Wörter
sentences.words array of object
Zuverlässigkeit
sentences.words.confidence double
Start
sentences.words.start integer
ENDE
sentences.words.end integer
Text
sentences.words.text string
Lautsprecher
sentences.words.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

Lautsprecher
sentences.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

ParagraphsResponse

Name Pfad Typ Beschreibung
Transkript-ID
id uuid
Zuverlässigkeit
confidence double
Audiodauer
audio_duration number
Paragraphs
paragraphs array of object
Text
paragraphs.text string
Start
paragraphs.start integer
ENDE
paragraphs.end integer
Zuverlässigkeit
paragraphs.confidence double
Wörter
paragraphs.words array of object
Zuverlässigkeit
paragraphs.words.confidence double
Start
paragraphs.words.start integer
ENDE
paragraphs.words.end integer
Text
paragraphs.words.text string
Lautsprecher
paragraphs.words.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

Lautsprecher
paragraphs.speaker string

Der Sprecher des Satzes, wenn die Sprecherdiarisierung aktiviert ist, sonst NULL

TranscriptList

Eine Liste der Transkriptionen. Transkriptionen werden von der neuesten zur ältesten sortiert. Die vorherige URL verweist immer auf eine Seite mit älteren Transkriptionen.

Name Pfad Typ Beschreibung
Limit
page_details.limit integer

Die Anzahl der Ergebnisse, auf die diese Seite beschränkt ist

Ergebnisanzahl
page_details.result_count integer

Die tatsächliche Anzahl der Ergebnisse auf der Seite

Aktuelle URL
page_details.current_url string

Die URL, die zum Abrufen der aktuellen Seite von Transkriptionen verwendet wird

Vorherige URL
page_details.prev_url string

Die URL zur nächsten Seite der Transkriptionen. Die vorherige URL verweist immer auf eine Seite mit älteren Transkriptionen.

Nächste URL
page_details.next_url string

Die URL zur nächsten Seite der Transkriptionen. Die nächste URL verweist immer auf eine Seite mit neueren Transkriptionen.

Transcripts
transcripts array of object
ID
transcripts.id uuid
Ressourcen-URL
transcripts.resource_url string
Der Status
transcripts.status string

Der Status Ihrer Transkription. Mögliche Werte sind in die Warteschlange eingereiht, verarbeitet, abgeschlossen oder fehler.

Erstellt
transcripts.created string
Abgeschlossen
transcripts.completed string
Audio-URL
transcripts.audio_url string
Fehler
transcripts.error string

Fehlermeldung, warum die Transkription fehlgeschlagen ist

UploadedFile

Name Pfad Typ Beschreibung
URL der hochgeladenen Datei
upload_url string

Eine URL, die auf Ihre Audiodatei verweist, auf die nur von AssemblyAI-Servern zugegriffen werden kann

PurgeLemurRequestDataResponse

Name Pfad Typ Beschreibung
Anforderungs-ID löschen
request_id uuid

Die ID des Löschantrags der LeMUR-Anforderung

LeMUR-Anforderungs-ID zum Löschen
request_id_to_purge uuid

Die ID der LeMUR-Anforderung zum Löschen der Daten für

Gelöscht
deleted boolean

Gibt an, ob die Anforderungsdaten gelöscht wurden.

LemurTaskResponse

Name Pfad Typ Beschreibung
Antwort
response string

Die von LeMUR generierte Antwort.

LeMUR-Anforderungs-ID
request_id uuid

Die ID der LeMUR-Anforderung

Eingabetoken
usage.input_tokens integer

Die Anzahl der vom Modell verwendeten Eingabetoken

256 Ausgabetoken
usage.output_tokens integer

Die Anzahl der vom Modell generierten Ausgabetoken

LemurResponse

Name Pfad Typ Beschreibung
Antwort
response string

Die von LeMUR generierte Antwort.

LeMUR-Anforderungs-ID
request_id uuid

Die ID der LeMUR-Anforderung

Eingabetoken
usage.input_tokens integer

Die Anzahl der vom Modell verwendeten Eingabetoken

256 Ausgabetoken
usage.output_tokens integer

Die Anzahl der vom Modell generierten Ausgabetoken

Schnur

Dies ist der grundlegende Datentyp "string".