Compartir a través de


AssemblyAI (versión preliminar)

Transcriba y extraiga datos de audio mediante speech AI de AssemblyAI.

Este conector está disponible en los siguientes productos y regiones:

Service Class Regions
Copilot Studio Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Aplicaciones lógicas Estándar Todas las regiones de Logic Apps excepto las siguientes:
     - Regiones de Azure Government
     - Regiones de Azure China
     - Departamento de Defensa de EE. UU. (DoD)
Power Apps Premium Todas las regiones de Power Apps excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Power Automate Premium Todas las regiones de Power Automate excepto las siguientes:
     - Gobierno de EE. UU. (GCC)
     - Gobierno de EE. UU. (GCC High)
     - China Cloud operado por 21Vianet
     - Departamento de Defensa de EE. UU. (DoD)
Contacto
Nombre Support
URL https://www.assemblyai.com/docs/
Correo Electrónico support@assemblyai.com
Metadatos del conector
Publicador AssemblyAI
Sitio web https://www.assemblyai.com
Directiva de privacidad https://www.assemblyai.com/legal/privacy-policy
Categorías AI

Con assemblyAI Connector, puede usar los modelos de AssemblyAI para procesar datos de audio transcribiéndolos con modelos de reconocimiento de voz, analizandolos con modelos de inteligencia de audio y creando características generativas sobre ellos con LLMs.

  • Conversión de voz a texto , incluidas muchas características configurables, como la diarización del hablante, la ortografía personalizada, el vocabulario personalizado, etc.
  • Los modelos de inteligencia de audio son modelos de inteligencia artificial adicionales disponibles y configurados a través de la configuración de transcripción.
  • LeMUR le permite aplicar varios modelos LLM a sus transcripciones sin necesidad de crear su propia infraestructura rag para transcripciones muy grandes.

Prerrequisitos

Necesitará lo siguiente para continuar:

Obtención de credenciales

Puede obtener una clave de API de AssemblyAI de forma gratuita si se registra para obtener una cuenta y copia la clave de API desde el panel.

Introducción al conector

Siga estos pasos para transcribir audio mediante el conector AssemblyAI.

Cargar un archivo

Para transcribir un archivo de audio mediante AssemblyAI, el archivo debe ser accesible para AssemblyAI. Si el archivo de audio ya es accesible a través de una dirección URL, puede usar la dirección URL existente.

De lo contrario, puede usar la Upload a File acción para cargar un archivo en AssemblyAI. Obtendrá una dirección URL para el archivo que solo se puede usar para transcribir mediante la clave de API. Una vez transcribido el archivo, el archivo se quitará de los servidores de AssemblyAI.

Transcribir audio

Para transcribir el audio, configure el parámetro mediante la Audio URL dirección URL del archivo de audio. A continuación, configure los parámetros adicionales para habilitar más características de reconocimiento de voz y modelos de Audio Intelligence .

El resultado de la acción Transcribir audio es una transcripción en cola que comenzará a procesarse inmediatamente. Para obtener la transcripción completada, tiene dos opciones:

  1. Control del webhook listo para transcripción
  2. Sondear el estado de transcripción

Control del webhook listo para transcripción

Si no desea controlar el webhook mediante Logic Apps o Power Automate, configure el parámetro en la Transcribe Audio acción e implemente el webhook siguiendo la Webhook URLdocumentación del webhook de AssemblyAI.

Para controlar el webhook mediante Logic Apps o Power Automate, siga estos pasos:

  1. Creación de una aplicación lógica independiente o un flujo de Power Automate

  2. Configure When an HTTP request is received como desencadenador:

    • Establezca Who Can Trigger The Flow? en Anyone.
    • Establézcalo Request Body JSON Schema en:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Establezca Method en POST.
  3. Agregue una acción AssemblyAI Get Transcript , pasando desde transcript_id el desencadenador al Transcript ID parámetro .

  4. Antes de hacer cualquier otra cosa, debe comprobar si es Statuscompleted o error. Agregue una Condition acción que compruebe si el Status objeto de la Get Transcript salida es error:

    • En la True rama, agregue una Terminate acción.
      • Establezca en .StatusFailed
      • Establezca en .CodeTranscript Error
      • Pase de Error la Get Transcript salida al Message parámetro .
    • Puede dejar la False rama vacía.

    Ahora puede agregar cualquier acción después Condition de conocer el estado de la transcripción es completedy puede recuperar cualquiera de las propiedades de salida de la Get Transcript acción.

  5. Guarde la aplicación lógica o el flujo. HTTP URL Se generará para el When an HTTP request is received desencadenador. Copie y HTTP URL vuelva a la aplicación lógica original o a Flow.

  6. En la aplicación lógica o flujo original, actualice la Transcribe Audio acción. Pegue el objeto HTTP URL que copió anteriormente en el Webhook URL parámetro y guárdelo.

Cuando el estado de la transcripción se convierte en completed o error, AssemblyAI enviará una solicitud HTTP POST a la dirección URL del webhook, que se controlará mediante su otra aplicación lógica o Flow.

Como alternativa al uso del webhook, puede sondear el estado de la transcripción como se explica en la sección siguiente.

Sondear el estado de transcripción

Puede sondear el estado de la transcripción mediante los pasos siguientes:

  • Agregar una Initialize variable acción

    • Establezca Name en transcript_status.
    • Establezca Type en String.
    • Almacenar desde Status la Transcribe Audio salida en el Value parámetro
  • Agregar una Do until acción

    • Configure el Loop Until parámetro con el código Fx siguiente:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Este código comprueba si la transcript_status variable es completed o error.
    • Configuración del Count parámetro en 86400
    • Configuración del Timeout parámetro en PT24H

    Dentro de la Do until acción, agregue las siguientes acciones:

    • Adición de una Delay acción que espera un segundo
    • Agregue una Get Transcript acción y pase de ID la Transcribe Audio salida al Transcript ID parámetro .
    • Agregar una Set variable acción
      • Establezca Name en transcript_status.
      • Pasar el Status de la Get Transcript salida al Value parámetro

    El Do until bucle continuará hasta que se complete la transcripción o se produzca un error.

  • Agregue otra Get Transcript acción, como antes, pero agréguela después del Do until bucle para que su salida esté disponible fuera del ámbito de la Do until acción.

Antes de hacer cualquier otra cosa, debe comprobar si la transcripción Status es completed o error. Agregue una Condition acción que compruebe si transcript_status es error:

  • En la True rama, agregue una Terminate acción.
    • Establezca Status en Failed.
    • Establezca Code en Transcript Error.
    • Pase de Error la Get Transcript salida al Message parámetro .
  • Puede dejar la False rama vacía.

Ahora puede agregar cualquier acción después Condition de conocer el estado de la transcripción es completedy puede recuperar cualquiera de las propiedades de salida de la Get Transcript acción.

Agregar más acciones

Ahora que ha completado la transcripción, puede usar muchas otras acciones pasando la ID de la transcripción, como

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Problemas y limitaciones conocidos

Actualmente no hay problemas conocidos. No se admite streaming de voz:To-Text (en tiempo real), ya que no es posible usar conectores personalizados.

Errores y soluciones comunes

Puede encontrar más información sobre los errores en la documentación de AssemblyAI.

Preguntas más frecuentes

Puede encontrar las preguntas más frecuentes en nuestra documentación.

Creación de una conexión

El conector admite los siguientes tipos de autenticación:

Predeterminado Parámetros para crear una conexión. Todas las regiones No se puede compartir

Predeterminado

Aplicable: Todas las regiones

Parámetros para crear una conexión.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Clave de API de AssemblyAI securestring Clave de API de AssemblyAI para autenticar la API de AssemblyAI. Cierto

Limitaciones

Nombre Llamadas Período de renovación
Llamadas API por conexión 100 60 segundos

Acciones

Buscar palabras en transcripción

Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números.

Cargar un archivo multimedia

Cargue un archivo multimedia en los servidores de AssemblyAI.

Ejecutar una tarea mediante LeMUR

Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM.

Eliminar transcripción

Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados.

Enumerar transcripciones

Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Obtener audio censurado

Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado.

Obtener oraciones en transcripción

Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector.

Obtener párrafos en transcripción

Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector.

Obtener subtítulos para transcripción

Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos.

Obtener transcripción

Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado".

Purgar datos de solicitud de LeMUR

Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original.

Recuperación de la respuesta de LeMUR

Recupere una respuesta leMUR que se generó anteriormente.

Transcribir audio

Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL.

Buscar palabras en transcripción

Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Palabras
words True array

Palabras clave para buscar

Devoluciones

Cargar un archivo multimedia

Cargue un archivo multimedia en los servidores de AssemblyAI.

Parámetros

Nombre Clave Requerido Tipo Description
Contenido del archivo
file True binary

Archivo que se va a cargar.

Devoluciones

Ejecutar una tarea mediante LeMUR

Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM.

Parámetros

Nombre Clave Requerido Tipo Description
Pronto
prompt True string

El texto para pedir al modelo que genere una salida deseada, incluido el contexto que quiera pasar al modelo.

Identificadores de transcripción
transcript_ids array of uuid

Lista de transcripciones completadas con texto. Hasta un máximo de 100 archivos o 100 horas, lo que sea menor. Use transcript_ids o input_text como entrada en LeMUR.

Texto de entrada
input_text string

Datos de transcripción con formato personalizado. El tamaño máximo es el límite de contexto del modelo seleccionado, que tiene como valor predeterminado 100000. Use transcript_ids o input_text como entrada en LeMUR.

Context
context string

Contexto para proporcionar el modelo. Puede ser una cadena o un valor JSON de forma libre.

Modelo final
final_model string

Modelo que se usa para el mensaje final después de realizar la compresión.

Tamaño máximo de salida
max_output_size integer

Tamaño máximo de salida en tokens, hasta 4000

Temperatura
temperature float

Temperatura que se va a usar para el modelo. Los valores más altos dan como resultado respuestas más creativas y valores más bajos son más conservadores. Puede ser cualquier valor entre 0,0 y 1,0 inclusive.

Devoluciones

Eliminar transcripción

Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Devoluciones

Un objeto de transcripción

Body
Transcript

Enumerar transcripciones

Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Parámetros

Nombre Clave Requerido Tipo Description
Limit
limit integer

Cantidad máxima de transcripciones que se van a recuperar

Estado
status string

El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.

Creadas el
created_on date

Obtenga solo las transcripciones creadas en esta fecha.

Antes del identificador
before_id uuid

Obtención de transcripciones que se crearon antes de este identificador de transcripción

Después del identificador
after_id uuid

Obtención de transcripciones que se crearon después de este identificador de transcripción

Solo limitado
throttled_only boolean

Solo obtiene transcripciones limitadas, invalida el filtro de estado.

Devoluciones

Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Obtener audio censurado

Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Devoluciones

Obtener oraciones en transcripción

Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Devoluciones

Obtener párrafos en transcripción

Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Devoluciones

Obtener subtítulos para transcripción

Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos.

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Formato de subtítulo
subtitle_format True string

Formato de los subtítulos

Número de caracteres por título
chars_per_caption integer

Número máximo de caracteres por título

Devoluciones

response
string

Obtener transcripción

Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado".

Parámetros

Nombre Clave Requerido Tipo Description
Id. de transcripción
transcript_id True string

Identificador de la transcripción

Devoluciones

Un objeto de transcripción

Body
Transcript

Purgar datos de solicitud de LeMUR

Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original.

Parámetros

Nombre Clave Requerido Tipo Description
Identificador de solicitud de LeMUR
request_id True string

Identificador de la solicitud LeMUR cuyos datos desea eliminar. Esto se encontraría en la respuesta de la solicitud original.

Devoluciones

Recuperación de la respuesta de LeMUR

Recupere una respuesta leMUR que se generó anteriormente.

Parámetros

Nombre Clave Requerido Tipo Description
Identificador de solicitud de LeMUR
request_id True string

Identificador de la solicitud de LeMUR que ha realizado anteriormente. Esto se encontraría en la respuesta de la solicitud original.

Devoluciones

Transcribir audio

Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL.

Parámetros

Nombre Clave Requerido Tipo Description
Audio URL
audio_url True string

Dirección URL del archivo de audio o vídeo que se va a transcribir.

Código de lenguaje
language_code string

Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us".

Language Detection
language_detection boolean

Habilite Detección automática de idioma, true o false.

Modelo de voz
speech_model string

Modelo de voz que se va a usar para la transcripción.

Puntuar
punctuate boolean

Habilitar puntuación automática, puede ser true o false

Formato de texto
format_text boolean

Habilitar el formato de texto, puede ser true o false

Disfluencies
disfluencies boolean

Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false

Canal dual
dual_channel boolean

Habilite la transcripción de canales duales, puede ser true o false.

Webhook URL
webhook_url string

Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado.

Nombre del encabezado de autenticación de webhook
webhook_auth_header_name string

Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores

Valor de encabezado de autenticación de webhook
webhook_auth_header_value string

Valor de encabezado que se va a devolver con la transcripción completada o con solicitudes de webhook con errores para la seguridad agregada.

Frases clave
auto_highlights boolean

Habilitar frases clave, true o false

Inicio de audio desde
audio_start_from integer

El momento dado, en milisegundos, para empezar a transcribir en el archivo multimedia

Extremo de audio al
audio_end_at integer

El momento dado, en milisegundos, para dejar de transcribir en el archivo multimedia

Aumento de palabras
word_boost array of string

Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para

Nivel de aumento de palabras
boost_param string

Cantidad de palabras especificadas

Filtrar palabras soeces
filter_profanity boolean

Filtrar palabras soeces del texto transcrito, puede ser true o false

Censura de PII
redact_pii boolean

Censura de PII del texto transcrito mediante el modelo de redacción de PII, puede ser true o false

Censurar audio PII
redact_pii_audio boolean

Generar una copia del archivo multimedia original con piI hablado "pitido", puede ser true o false. Consulte La redacción de PII para obtener más detalles.

Redacción de la calidad de audio PII
redact_pii_audio_quality string

Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles.

Censura de directivas de PII
redact_pii_policies array of string

Lista de directivas de reacción de PII que se van a habilitar. Consulte La redacción de PII para obtener más detalles.

Redacción de la sustitución de PII
redact_pii_sub string

La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles.

Etiquetas de altavoz
speaker_labels boolean

Habilitar la diarización del hablante, puede ser true o false

Se esperaban hablantes
speakers_expected integer

Indica al modelo de etiqueta del hablante cuántos hablantes deben intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles.

Moderación de contenido
content_safety boolean

Habilitar moderación de contenido, puede ser true o false

Confianza de moderación de contenido
content_safety_confidence integer

Umbral de confianza para el modelo de moderación de contenido. Los valores deben estar comprendidos entre 25 y 100.

Detección de temas
iab_categories boolean

Habilitar detección de temas, puede ser true o false

De
from True array of string

Palabras o frases que se van a reemplazar

Para
to True string

Palabra o frase que se va a reemplazar por

Sentiment Analysis
sentiment_analysis boolean

Habilitar el análisis de sentimiento, puede ser true o false

Capítulos automáticos
auto_chapters boolean

Habilitar capítulos automáticos, puede ser true o false

Detección de entidades
entity_detection boolean

Habilitar detección de entidades, puede ser true o false

Umbral de voz
speech_threshold float

Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1].

Habilitar resumen
summarization boolean

Habilitar resumen, puede ser true o false

Modelo de resumen
summary_model string

Modelo para resumir la transcripción

Tipo de resumen
summary_type string

Tipo de resumen

Habilitación de temas personalizados
custom_topics boolean

Habilitación de temas personalizados, true o false

Temas personalizados
topics array of string

Lista de temas personalizados

Devoluciones

Un objeto de transcripción

Body
Transcript

Definiciones

RedactedAudioResponse

Nombre Ruta de acceso Tipo Description
Estado
status string

Estado del audio censurado

Dirección URL de audio redactada
redacted_audio_url string

Dirección URL del archivo de audio censurado

WordSearchResponse

Nombre Ruta de acceso Tipo Description
Id. de transcripción
id uuid

Identificador de la transcripción

Recuento total de coincidencias
total_count integer

Recuento total de todas las instancias coincidentes. Por ejemplo, la palabra 1 coincide con 2 veces y la palabra 2 coincide con 3 veces, total_count será igual a 5.

Coincidencias
matches array of object

Coincidencias de la búsqueda

Mensaje de texto
matches.text string

Palabra coincidente

Contar
matches.count integer

Cantidad total de veces que la palabra está en la transcripción

Marcas de tiempo
matches.timestamps array of array

Matriz de marcas de tiempo

Marca de tiempo
matches.timestamps array of integer

Matriz de marcas de tiempo estructuradas como [start_time, end_time] en milisegundos

Indexes
matches.indexes array of integer

Matriz de todas las ubicaciones de índice de esa palabra dentro de la matriz de palabras de la transcripción completada

Transcripción

Un objeto de transcripción

Nombre Ruta de acceso Tipo Description
identificación
id uuid

Identificador único de la transcripción

Audio URL
audio_url string

Dirección URL de los medios que se transcribieron

Estado
status string

El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.

Código de lenguaje
language_code string

Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us".

Language Detection
language_detection boolean

Si la detección automática de idioma está habilitada, true o false

Modelo de voz
speech_model string

Modelo de voz que se va a usar para la transcripción.

Mensaje de texto
text string

Transcripción textual del archivo multimedia

Palabras
words array of object

Matriz de objetos de palabras secuenciales temporales, una para cada palabra de la transcripción. Consulte Reconocimiento de voz para obtener más información.

Confianza
words.confidence double
Comenzar
words.start integer
Fin
words.end integer
Mensaje de texto
words.text string
Orador
words.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

Grabaciones de voz
utterances array of object

Cuando se habilita dual_channel o speaker_labels, una lista de objetos de expresión turn-by-turn. Consulte Diarización del hablante para obtener más información.

Confianza
utterances.confidence double

Puntuación de confianza de la transcripción de esta expresión

Comenzar
utterances.start integer

Hora de inicio, en milisegundos, de la expresión en el archivo de audio

Fin
utterances.end integer

Hora de finalización, en milisegundos, de la expresión en el archivo de audio

Mensaje de texto
utterances.text string

Texto de esta expresión

Palabras
utterances.words array of object

Palabras de la expresión.

Confianza
utterances.words.confidence double
Comenzar
utterances.words.start integer
Fin
utterances.words.end integer
Mensaje de texto
utterances.words.text string
Orador
utterances.words.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

Orador
utterances.speaker string

El hablante de esta expresión, donde a cada hablante se le asigna una letra mayúscula secuencial( por ejemplo, "A" para speaker A, "B" para speaker B, etc.

Confianza
confidence double

Puntuación de confianza de la transcripción, entre 0,0 (confianza baja) y 1,0 (confianza alta)

Duración de audio
audio_duration integer

Duración del archivo multimedia de este objeto de transcripción, en segundos

Puntuar
punctuate boolean

Si la puntuación automática está habilitada, true o false

Formato de texto
format_text boolean

Si el formato de texto está habilitado, true o false

Disfluencies
disfluencies boolean

Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false

Canal dual
dual_channel boolean

Indica si la transcripción de canales duales se ha habilitado en la solicitud de transcripción, ya sea true o false.

Webhook URL
webhook_url string

Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado.

Código de estado HTTP de webhook
webhook_status_code integer

El código de estado que recibimos del servidor al entregar la transcripción completada o con errores de solicitud de webhook, si se proporcionó una dirección URL de webhook.

Autenticación de webhook habilitada
webhook_auth boolean

Si se proporcionaron detalles de autenticación de webhook

Nombre del encabezado de autenticación de webhook
webhook_auth_header_name string

Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores

Aumento de velocidad
speed_boost boolean

Indica si el aumento de velocidad está habilitado

Frases clave
auto_highlights boolean

Si las frases clave están habilitadas, true o false

Estado
auto_highlights_result.status string

Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo

Results
auto_highlights_result.results array of object

Matriz secuencial temporal de frases clave

Contar
auto_highlights_result.results.count integer

Número total de veces que aparece la frase clave en el archivo de audio

Rango
auto_highlights_result.results.rank float

La relevancia total del archivo de audio general de esta frase clave: un número mayor significa más relevante.

Mensaje de texto
auto_highlights_result.results.text string

El propio texto de la frase clave

Marcas de tiempo
auto_highlights_result.results.timestamps array of object

Marca de tiempo de de la frase clave

Comenzar
auto_highlights_result.results.timestamps.start integer

Hora de inicio en milisegundos

Fin
auto_highlights_result.results.timestamps.end integer

Hora de finalización en milisegundos

Inicio de audio desde
audio_start_from integer

El momento dado, en milisegundos, en el archivo en el que se inició la transcripción

Extremo de audio al
audio_end_at integer

El punto en el tiempo, en milisegundos, en el archivo en el que se finalizó la transcripción

Aumento de palabras
word_boost array of string

Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para

Impulsar
boost_param string

Valor del parámetro word boost

Filtrar palabras soeces
filter_profanity boolean

Si el filtrado de palabras soeces está habilitado, true o false

Censura de PII
redact_pii boolean

Indica si la reacción de PII está habilitada, ya sea true o false

Censurar audio PII
redact_pii_audio boolean

Si se generó una versión redactada del archivo de audio, true o false. Consulte La redacción de PII para obtener más información.

Redacción de la calidad de audio PII
redact_pii_audio_quality string

Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles.

Censura de directivas de PII
redact_pii_policies array of string

La lista de directivas de redacción de PII que se habilitaron, si piI Redaction está habilitada. Consulte La redacción de PII para obtener más información.

Redacción de la sustitución de PII
redact_pii_sub string

La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles.

Etiquetas de altavoz
speaker_labels boolean

Si la diarización del hablante está habilitada, puede ser true o false

Se esperaban hablantes
speakers_expected integer

Indique al modelo de etiqueta del hablante cuántos hablantes debe intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles.

Moderación de contenido
content_safety boolean

Si la moderación de contenido está habilitada, puede ser true o false

Estado
content_safety_labels.status string

Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo

Results
content_safety_labels.results array of object
Mensaje de texto
content_safety_labels.results.text string

Transcripción de la sección marcada por el modelo de moderación de contenido

Etiquetas
content_safety_labels.results.labels array of object

Matriz de etiquetas de seguridad, una por tema confidencial que se detectó en la sección

Etiqueta
content_safety_labels.results.labels.label string

Etiqueta del tema confidencial

Confianza
content_safety_labels.results.labels.confidence double

Puntuación de confianza para el tema que se trata, de 0 a 1

Severity
content_safety_labels.results.labels.severity double

La gravedad del tema se describe en la sección, de 0 a 1

Inicio del índice de oraciones
content_safety_labels.results.sentences_idx_start integer

Índice de oraciones en el que comienza la sección

Fin del índice de oraciones
content_safety_labels.results.sentences_idx_end integer

Índice de oración en el que finaliza la sección

Comenzar
content_safety_labels.results.timestamp.start integer

Hora de inicio en milisegundos

Fin
content_safety_labels.results.timestamp.end integer

Hora de finalización en milisegundos

Resumen
content_safety_labels.summary object

Resumen de los resultados de confianza de moderación de contenido para todo el archivo de audio

Resumen de puntuación de gravedad
content_safety_labels.severity_score_summary object

Resumen de los resultados de gravedad de moderación de contenido para todo el archivo de audio

Detección de temas
iab_categories boolean

Si la detección de temas está habilitada, puede ser true o false

Estado
iab_categories_result.status string

Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo

Results
iab_categories_result.results array of object

Matriz de resultados para el modelo de detección de temas

Mensaje de texto
iab_categories_result.results.text string

Texto de la transcripción en la que se produce un tema detectado

Etiquetas
iab_categories_result.results.labels array of object
Pertinencia
iab_categories_result.results.labels.relevance double

Cómo es relevante el tema detectado de un tema detectado

Etiqueta
iab_categories_result.results.labels.label string

Etiqueta taxonómica de IAB para la etiqueta del tema detectado, donde > denota la relación supertopic/subtopic

Comenzar
iab_categories_result.results.timestamp.start integer

Hora de inicio en milisegundos

Fin
iab_categories_result.results.timestamp.end integer

Hora de finalización en milisegundos

Resumen
iab_categories_result.summary object

Relevancia general del tema en todo el archivo de audio

Ortografías personalizadas
custom_spelling array of object

Personalización de cómo se escriben y se da formato a las palabras mediante valores hacia y desde

De
custom_spelling.from array of string

Palabras o frases que se van a reemplazar

Para
custom_spelling.to string

Palabra o frase que se va a reemplazar por

Capítulos automáticos habilitados
auto_chapters boolean

Si los capítulos automáticos están habilitados, puede ser true o false

Capítulos
chapters array of object

Matriz de capítulos secuenciales temporales para el archivo de audio

Gist
chapters.gist string

Un resumen ultra corto (solo unas pocas palabras) del contenido hablado en el capítulo

Titular
chapters.headline string

Resumen de una sola oración del contenido hablado durante el capítulo

Resumen
chapters.summary string

Un resumen de un párrafo del contenido hablado durante el capítulo

Comenzar
chapters.start integer

Hora de inicio, en milisegundos, para el capítulo

Fin
chapters.end integer

Hora de inicio, en milisegundos, para el capítulo

Resumen habilitado
summarization boolean

Si el resumen está habilitado, true o false

Tipo de resumen
summary_type string

El tipo de resumen generado, si el resumen está habilitado.

Modelo de resumen
summary_model string

El modelo de resumen que se usa para generar el resumen, si el resumen está habilitado.

Resumen
summary string

Resumen generado del archivo multimedia, si el resumen está habilitado.

Temas personalizados habilitados
custom_topics boolean

Si los temas personalizados están habilitados, true o false

Temas
topics array of string

La lista de temas personalizados proporcionados si los temas personalizados están habilitados

Sentiment Analysis
sentiment_analysis boolean

Si el análisis de sentimiento está habilitado, puede ser true o false

Resultados del análisis de sentimiento
sentiment_analysis_results array of object

Matriz de resultados para el modelo de análisis de sentimiento, si está habilitado. Consulte Análisis de sentimiento para obtener más información.

Mensaje de texto
sentiment_analysis_results.text string

Transcripción de la oración

Comenzar
sentiment_analysis_results.start integer

Hora de inicio, en milisegundos, de la oración

Fin
sentiment_analysis_results.end integer

Hora de finalización, en milisegundos, de la oración

Sentimiento
sentiment_analysis_results.sentiment

La opinión detectada para la frase, una de positiva, NEUTRAL, NEGATIVA

Confianza
sentiment_analysis_results.confidence double

Puntuación de confianza para la opinión detectada de la oración, de 0 a 1

Orador
sentiment_analysis_results.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

Detección de entidades
entity_detection boolean

Si la detección de entidades está habilitada, puede ser true o false

Entities
entities array of object

Matriz de resultados para el modelo de detección de entidades, si está habilitado. Consulte Detección de entidades para obtener más información.

Tipo de entidad
entities.entity_type string

Tipo de entidad para la entidad detectada

Mensaje de texto
entities.text string

Texto de la entidad detectada

Comenzar
entities.start integer

Hora de inicio, en milisegundos, en la que la entidad detectada aparece en el archivo de audio.

Fin
entities.end integer

Hora de finalización, en milisegundos, para la entidad detectada en el archivo de audio

Umbral de voz
speech_threshold float

El valor predeterminado es NULL. Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1].

Sofocada
throttled boolean

True mientras se limita una solicitud y false cuando ya no se limita una solicitud

Error
error string

Mensaje de error de por qué se produjo un error en la transcripción

Modelo de lenguaje
language_model string

Modelo de lenguaje que se usó para la transcripción

Modelo acústico
acoustic_model string

Modelo acústico que se usó para la transcripción

SentencesResponse

Nombre Ruta de acceso Tipo Description
Id. de transcripción
id uuid
Confianza
confidence double
Duración de audio
audio_duration number
Oraciones
sentences array of object
Mensaje de texto
sentences.text string
Comenzar
sentences.start integer
Fin
sentences.end integer
Confianza
sentences.confidence double
Palabras
sentences.words array of object
Confianza
sentences.words.confidence double
Comenzar
sentences.words.start integer
Fin
sentences.words.end integer
Mensaje de texto
sentences.words.text string
Orador
sentences.words.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

Orador
sentences.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

ParagraphsResponse

Nombre Ruta de acceso Tipo Description
Id. de transcripción
id uuid
Confianza
confidence double
Duración de audio
audio_duration number
Paragraphs
paragraphs array of object
Mensaje de texto
paragraphs.text string
Comenzar
paragraphs.start integer
Fin
paragraphs.end integer
Confianza
paragraphs.confidence double
Palabras
paragraphs.words array of object
Confianza
paragraphs.words.confidence double
Comenzar
paragraphs.words.start integer
Fin
paragraphs.words.end integer
Mensaje de texto
paragraphs.words.text string
Orador
paragraphs.words.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

Orador
paragraphs.speaker string

El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

TranscriptList

Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Nombre Ruta de acceso Tipo Description
Limit
page_details.limit integer

El número de resultados de esta página está limitado a

Número de resultados
page_details.result_count integer

Número real de resultados en la página

Dirección URL actual
page_details.current_url string

Dirección URL usada para recuperar la página actual de transcripciones

Dirección URL anterior
page_details.prev_url string

Dirección URL a la página siguiente de transcripciones. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Dirección URL siguiente
page_details.next_url string

Dirección URL a la página siguiente de transcripciones. La siguiente dirección URL siempre apunta a una página con transcripciones más recientes.

Transcripts
transcripts array of object
identificación
transcripts.id uuid
Dirección URL del recurso
transcripts.resource_url string
Estado
transcripts.status string

El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.

Creado
transcripts.created string
Completado
transcripts.completed string
Audio URL
transcripts.audio_url string
Error
transcripts.error string

Mensaje de error de por qué se produjo un error en la transcripción

UploadedFile

Nombre Ruta de acceso Tipo Description
Dirección URL del archivo cargado
upload_url string

Dirección URL que apunta al archivo de audio, accesible solo por los servidores de AssemblyAI.

PurgeLemurRequestDataResponse

Nombre Ruta de acceso Tipo Description
Identificador de solicitud de purga
request_id uuid

Identificador de la solicitud de eliminación de la solicitud leMUR

Identificador de solicitud de LeMUR para purgar
request_id_to_purge uuid

Identificador de la solicitud leMUR para purgar los datos de

Borrado
deleted boolean

Si se eliminaron los datos de la solicitud

LemurTaskResponse

Nombre Ruta de acceso Tipo Description
Respuesta
response string

Respuesta generada por LeMUR.

Identificador de solicitud de LeMUR
request_id uuid

Identificador de la solicitud leMUR

Tokens de entrada
usage.input_tokens integer

Número de tokens de entrada usados por el modelo

Tokens de salida
usage.output_tokens integer

Número de tokens de salida generados por el modelo

LemurResponse

Nombre Ruta de acceso Tipo Description
Respuesta
response string

Respuesta generada por LeMUR.

Identificador de solicitud de LeMUR
request_id uuid

Identificador de la solicitud leMUR

Tokens de entrada
usage.input_tokens integer

Número de tokens de entrada usados por el modelo

Tokens de salida
usage.output_tokens integer

Número de tokens de salida generados por el modelo

cuerda / cadena

Este es el tipo de datos básico "string".