AssemblyAI (versión preliminar)

Transcriba y extraiga datos de audio mediante speech AI de AssemblyAI.

Este conector está disponible en los siguientes productos y regiones:

Service	Class	Regions
Copilot Studio	Premium	Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD)
Aplicaciones lógicas	Estándar	Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure Government - Regiones de Azure China - Departamento de Defensa de EE. UU. (DoD)
Power Apps	Premium	Todas las regiones de Power Apps excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD)
Power Automate	Premium	Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD)

Contacto
Nombre	Support
URL	https://www.assemblyai.com/docs/
Correo Electrónico	support@assemblyai.com

Metadatos del conector
Publicador	AssemblyAI
Sitio web	https://www.assemblyai.com
Directiva de privacidad	https://www.assemblyai.com/legal/privacy-policy
Categorías	AI

Con assemblyAI Connector, puede usar los modelos de AssemblyAI para procesar datos de audio transcribiéndolos con modelos de reconocimiento de voz, analizandolos con modelos de inteligencia de audio y creando características generativas sobre ellos con LLMs.

Conversión de voz a texto , incluidas muchas características configurables, como la diarización del hablante, la ortografía personalizada, el vocabulario personalizado, etc.
Los modelos de inteligencia de audio son modelos de inteligencia artificial adicionales disponibles y configurados a través de la configuración de transcripción.
LeMUR le permite aplicar varios modelos LLM a sus transcripciones sin necesidad de crear su propia infraestructura rag para transcripciones muy grandes.

Prerrequisitos

Necesitará lo siguiente para continuar:

Una clave de API de AssemblyAI (obtenga una de forma gratuita)

Obtención de credenciales

Puede obtener una clave de API de AssemblyAI de forma gratuita si se registra para obtener una cuenta y copia la clave de API desde el panel.

Introducción al conector

Siga estos pasos para transcribir audio mediante el conector AssemblyAI.

Cargar un archivo

Para transcribir un archivo de audio mediante AssemblyAI, el archivo debe ser accesible para AssemblyAI. Si el archivo de audio ya es accesible a través de una dirección URL, puede usar la dirección URL existente.

De lo contrario, puede usar la Upload a File acción para cargar un archivo en AssemblyAI. Obtendrá una dirección URL para el archivo que solo se puede usar para transcribir mediante la clave de API. Una vez transcribido el archivo, el archivo se quitará de los servidores de AssemblyAI.

Transcribir audio

Para transcribir el audio, configure el parámetro mediante la Audio URL dirección URL del archivo de audio. A continuación, configure los parámetros adicionales para habilitar más características de reconocimiento de voz y modelos de Audio Intelligence .

El resultado de la acción Transcribir audio es una transcripción en cola que comenzará a procesarse inmediatamente. Para obtener la transcripción completada, tiene dos opciones:

Control del webhook listo para transcripción
Sondear el estado de transcripción

Control del webhook listo para transcripción

Si no desea controlar el webhook mediante Logic Apps o Power Automate, configure el parámetro en la Transcribe Audio acción e implemente el webhook siguiendo la Webhook URLdocumentación del webhook de AssemblyAI.

Para controlar el webhook mediante Logic Apps o Power Automate, siga estos pasos:

Creación de una aplicación lógica independiente o un flujo de Power Automate
Configure When an HTTP request is received como desencadenador:
- Establezca Who Can Trigger The Flow? en Anyone.
- Establézcalo Request Body JSON Schema en:
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Establezca Method en POST.
Agregue una acción AssemblyAI Get Transcript , pasando desde transcript_id el desencadenador al Transcript ID parámetro .
Antes de hacer cualquier otra cosa, debe comprobar si es Statuscompleted o error. Agregue una Condition acción que compruebe si el Status objeto de la Get Transcript salida es error:
- En la True rama, agregue una Terminate acción.
  - Establezca en .StatusFailed
  - Establezca en .CodeTranscript Error
  - Pase de Error la Get Transcript salida al Message parámetro .
- Puede dejar la False rama vacía.
Ahora puede agregar cualquier acción después Condition de conocer el estado de la transcripción es completedy puede recuperar cualquiera de las propiedades de salida de la Get Transcript acción.
Guarde la aplicación lógica o el flujo. HTTP URL Se generará para el When an HTTP request is received desencadenador. Copie y HTTP URL vuelva a la aplicación lógica original o a Flow.
En la aplicación lógica o flujo original, actualice la Transcribe Audio acción. Pegue el objeto HTTP URL que copió anteriormente en el Webhook URL parámetro y guárdelo.

Cuando el estado de la transcripción se convierte en completed o error, AssemblyAI enviará una solicitud HTTP POST a la dirección URL del webhook, que se controlará mediante su otra aplicación lógica o Flow.

Como alternativa al uso del webhook, puede sondear el estado de la transcripción como se explica en la sección siguiente.

Sondear el estado de transcripción

Puede sondear el estado de la transcripción mediante los pasos siguientes:

Agregar una Initialize variable acción
- Establezca Name en transcript_status.
- Establezca Type en String.
- Almacenar desde Status la Transcribe Audio salida en el Value parámetro
Agregar una Do until acción
- Configure el Loop Until parámetro con el código Fx siguiente:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Este código comprueba si la transcript_status variable es completed o error.
- Configuración del Count parámetro en 86400
- Configuración del Timeout parámetro en PT24H
Dentro de la Do until acción, agregue las siguientes acciones:
- Adición de una Delay acción que espera un segundo
- Agregue una Get Transcript acción y pase de ID la Transcribe Audio salida al Transcript ID parámetro .
- Agregar una Set variable acción
  - Establezca Name en transcript_status.
  - Pasar el Status de la Get Transcript salida al Value parámetro
El Do until bucle continuará hasta que se complete la transcripción o se produzca un error.
Agregue otra Get Transcript acción, como antes, pero agréguela después del Do until bucle para que su salida esté disponible fuera del ámbito de la Do until acción.

Antes de hacer cualquier otra cosa, debe comprobar si la transcripción Status es completed o error. Agregue una Condition acción que compruebe si transcript_status es error:

En la True rama, agregue una Terminate acción.
- Establezca Status en Failed.
- Establezca Code en Transcript Error.
- Pase de Error la Get Transcript salida al Message parámetro .
Puede dejar la False rama vacía.

Ahora puede agregar cualquier acción después Condition de conocer el estado de la transcripción es completedy puede recuperar cualquiera de las propiedades de salida de la Get Transcript acción.

Agregar más acciones

Ahora que ha completado la transcripción, puede usar muchas otras acciones pasando la ID de la transcripción, como

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Problemas y limitaciones conocidos

Actualmente no hay problemas conocidos. No se admite streaming de voz:To-Text (en tiempo real), ya que no es posible usar conectores personalizados.

Errores y soluciones comunes

Puede encontrar más información sobre los errores en la documentación de AssemblyAI.

Preguntas más frecuentes

Puede encontrar las preguntas más frecuentes en nuestra documentación.

Creación de una conexión

El conector admite los siguientes tipos de autenticación:


Predeterminado	Parámetros para crear una conexión.	Todas las regiones	No se puede compartir

Predeterminado

Aplicable: Todas las regiones

Parámetros para crear una conexión.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre	Tipo	Description	Obligatorio
Clave de API de AssemblyAI	securestring	Clave de API de AssemblyAI para autenticar la API de AssemblyAI.	Cierto

Limitaciones

Nombre	Llamadas	Período de renovación
Llamadas API por conexión	100	60 segundos

Acciones

Buscar palabras en transcripción	Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números.
Cargar un archivo multimedia	Cargue un archivo multimedia en los servidores de AssemblyAI.
Ejecutar una tarea mediante LeMUR	Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM.
Eliminar transcripción	Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados.
Enumerar transcripciones	Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.
Obtener audio censurado	Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado.
Obtener oraciones en transcripción	Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector.
Obtener párrafos en transcripción	Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector.
Obtener subtítulos para transcripción	Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos.
Obtener transcripción	Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado".
Purgar datos de solicitud de LeMUR	Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original.
Recuperación de la respuesta de LeMUR	Recupere una respuesta leMUR que se generó anteriormente.
Transcribir audio	Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL.

Buscar palabras en transcripción

Id. de la operación:: WordSearch

Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción
Palabras	words	True	array	Palabras clave para buscar

Devoluciones

Body: WordSearchResponse

Cargar un archivo multimedia

Id. de la operación:: UploadFile

Cargue un archivo multimedia en los servidores de AssemblyAI.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Contenido del archivo	file	True	binary	Archivo que se va a cargar.

Devoluciones

Body: UploadedFile

Ejecutar una tarea mediante LeMUR

Id. de la operación:: LemurTask

Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Pronto	prompt	True	string	El texto para pedir al modelo que genere una salida deseada, incluido el contexto que quiera pasar al modelo.
Identificadores de transcripción	transcript_ids		array of uuid	Lista de transcripciones completadas con texto. Hasta un máximo de 100 archivos o 100 horas, lo que sea menor. Use transcript_ids o input_text como entrada en LeMUR.
Texto de entrada	input_text		string	Datos de transcripción con formato personalizado. El tamaño máximo es el límite de contexto del modelo seleccionado, que tiene como valor predeterminado 100000. Use transcript_ids o input_text como entrada en LeMUR.
Context	context		string	Contexto para proporcionar el modelo. Puede ser una cadena o un valor JSON de forma libre.
Modelo final	final_model		string	Modelo que se usa para el mensaje final después de realizar la compresión.
Tamaño máximo de salida	max_output_size		integer	Tamaño máximo de salida en tokens, hasta 4000
Temperatura	temperature		float	Temperatura que se va a usar para el modelo. Los valores más altos dan como resultado respuestas más creativas y valores más bajos son más conservadores. Puede ser cualquier valor entre 0,0 y 1,0 inclusive.

Devoluciones

Body: LemurTaskResponse

Eliminar transcripción

Id. de la operación:: DeleteTranscript

Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción

Devoluciones

Un objeto de transcripción

Body: Transcript

Enumerar transcripciones

Id. de la operación:: ListTranscripts

Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Parámetros

Nombre	Clave	Tipo	Description
Limit	limit	integer	Cantidad máxima de transcripciones que se van a recuperar
Estado	status	string	El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.
Creadas el	created_on	date	Obtenga solo las transcripciones creadas en esta fecha.
Antes del identificador	before_id	uuid	Obtención de transcripciones que se crearon antes de este identificador de transcripción
Después del identificador	after_id	uuid	Obtención de transcripciones que se crearon después de este identificador de transcripción
Solo limitado	throttled_only	boolean	Solo obtiene transcripciones limitadas, invalida el filtro de estado.

Devoluciones

Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Body: TranscriptList

Obtener audio censurado

Id. de la operación:: GetRedactedAudio

Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción

Devoluciones

Body: RedactedAudioResponse

Obtener oraciones en transcripción

Id. de la operación:: GetTranscriptSentences

Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción

Devoluciones

Body: SentencesResponse

Obtener párrafos en transcripción

Id. de la operación:: GetTranscriptParagraphs

Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción

Devoluciones

Body: ParagraphsResponse

Obtener subtítulos para transcripción

Id. de la operación:: GetSubtitles

Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción
Formato de subtítulo	subtitle_format	True	string	Formato de los subtítulos
Número de caracteres por título	chars_per_caption		integer	Número máximo de caracteres por título

Devoluciones

response: string

Obtener transcripción

Id. de la operación:: GetTranscript

Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado".

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Id. de transcripción	transcript_id	True	string	Identificador de la transcripción

Devoluciones

Un objeto de transcripción

Body: Transcript

Purgar datos de solicitud de LeMUR

Id. de la operación:: PurgeLemurRequestData

Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Identificador de solicitud de LeMUR	request_id	True	string	Identificador de la solicitud LeMUR cuyos datos desea eliminar. Esto se encontraría en la respuesta de la solicitud original.

Devoluciones

Body: PurgeLemurRequestDataResponse

Recuperación de la respuesta de LeMUR

Id. de la operación:: GetLemurResponse

Recupere una respuesta leMUR que se generó anteriormente.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Identificador de solicitud de LeMUR	request_id	True	string	Identificador de la solicitud de LeMUR que ha realizado anteriormente. Esto se encontraría en la respuesta de la solicitud original.

Devoluciones

Body: LemurResponse

Transcribir audio

Id. de la operación:: CreateTranscript

Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL.

Parámetros

Nombre	Clave	Requerido	Tipo	Description
Audio URL	audio_url	True	string	Dirección URL del archivo de audio o vídeo que se va a transcribir.
Código de lenguaje	language_code		string	Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us".
Language Detection	language_detection		boolean	Habilite Detección automática de idioma, true o false.
Modelo de voz	speech_model		string	Modelo de voz que se va a usar para la transcripción.
Puntuar	punctuate		boolean	Habilitar puntuación automática, puede ser true o false
Formato de texto	format_text		boolean	Habilitar el formato de texto, puede ser true o false
Disfluencies	disfluencies		boolean	Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false
Canal dual	dual_channel		boolean	Habilite la transcripción de canales duales, puede ser true o false.
Webhook URL	webhook_url		string	Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado.
Nombre del encabezado de autenticación de webhook	webhook_auth_header_name		string	Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores
Valor de encabezado de autenticación de webhook	webhook_auth_header_value		string	Valor de encabezado que se va a devolver con la transcripción completada o con solicitudes de webhook con errores para la seguridad agregada.
Frases clave	auto_highlights		boolean	Habilitar frases clave, true o false
Inicio de audio desde	audio_start_from		integer	El momento dado, en milisegundos, para empezar a transcribir en el archivo multimedia
Extremo de audio al	audio_end_at		integer	El momento dado, en milisegundos, para dejar de transcribir en el archivo multimedia
Aumento de palabras	word_boost		array of string	Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para
Nivel de aumento de palabras	boost_param		string	Cantidad de palabras especificadas
Filtrar palabras soeces	filter_profanity		boolean	Filtrar palabras soeces del texto transcrito, puede ser true o false
Censura de PII	redact_pii		boolean	Censura de PII del texto transcrito mediante el modelo de redacción de PII, puede ser true o false
Censurar audio PII	redact_pii_audio		boolean	Generar una copia del archivo multimedia original con piI hablado "pitido", puede ser true o false. Consulte La redacción de PII para obtener más detalles.
Redacción de la calidad de audio PII	redact_pii_audio_quality		string	Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles.
Censura de directivas de PII	redact_pii_policies		array of string	Lista de directivas de reacción de PII que se van a habilitar. Consulte La redacción de PII para obtener más detalles.
Redacción de la sustitución de PII	redact_pii_sub		string	La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles.
Etiquetas de altavoz	speaker_labels		boolean	Habilitar la diarización del hablante, puede ser true o false
Se esperaban hablantes	speakers_expected		integer	Indica al modelo de etiqueta del hablante cuántos hablantes deben intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles.
Moderación de contenido	content_safety		boolean	Habilitar moderación de contenido, puede ser true o false
Confianza de moderación de contenido	content_safety_confidence		integer	Umbral de confianza para el modelo de moderación de contenido. Los valores deben estar comprendidos entre 25 y 100.
Detección de temas	iab_categories		boolean	Habilitar detección de temas, puede ser true o false
De	from	True	array of string	Palabras o frases que se van a reemplazar
Para	to	True	string	Palabra o frase que se va a reemplazar por
Sentiment Analysis	sentiment_analysis		boolean	Habilitar el análisis de sentimiento, puede ser true o false
Capítulos automáticos	auto_chapters		boolean	Habilitar capítulos automáticos, puede ser true o false
Detección de entidades	entity_detection		boolean	Habilitar detección de entidades, puede ser true o false
Umbral de voz	speech_threshold		float	Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1].
Habilitar resumen	summarization		boolean	Habilitar resumen, puede ser true o false
Modelo de resumen	summary_model		string	Modelo para resumir la transcripción
Tipo de resumen	summary_type		string	Tipo de resumen
Habilitación de temas personalizados	custom_topics		boolean	Habilitación de temas personalizados, true o false
Temas personalizados	topics		array of string	Lista de temas personalizados

Devoluciones

Un objeto de transcripción

Body: Transcript

Definiciones

RedactedAudioResponse

Nombre	Ruta de acceso	Tipo	Description
Estado	status	string	Estado del audio censurado
Dirección URL de audio redactada	redacted_audio_url	string	Dirección URL del archivo de audio censurado

WordSearchResponse

Nombre	Ruta de acceso	Tipo	Description
Id. de transcripción	id	uuid	Identificador de la transcripción
Recuento total de coincidencias	total_count	integer	Recuento total de todas las instancias coincidentes. Por ejemplo, la palabra 1 coincide con 2 veces y la palabra 2 coincide con 3 veces, total_count será igual a 5.
Coincidencias	matches	array of object	Coincidencias de la búsqueda
Mensaje de texto	matches.text	string	Palabra coincidente
Contar	matches.count	integer	Cantidad total de veces que la palabra está en la transcripción
Marcas de tiempo	matches.timestamps	array of array	Matriz de marcas de tiempo
Marca de tiempo	matches.timestamps	array of integer	Matriz de marcas de tiempo estructuradas como [start_time, end_time] en milisegundos
Indexes	matches.indexes	array of integer	Matriz de todas las ubicaciones de índice de esa palabra dentro de la matriz de palabras de la transcripción completada

Transcripción

Un objeto de transcripción

Nombre	Ruta de acceso	Tipo	Description
identificación	id	uuid	Identificador único de la transcripción
Audio URL	audio_url	string	Dirección URL de los medios que se transcribieron
Estado	status	string	El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.
Código de lenguaje	language_code	string	Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us".
Language Detection	language_detection	boolean	Si la detección automática de idioma está habilitada, true o false
Modelo de voz	speech_model	string	Modelo de voz que se va a usar para la transcripción.
Mensaje de texto	text	string	Transcripción textual del archivo multimedia
Palabras	words	array of object	Matriz de objetos de palabras secuenciales temporales, una para cada palabra de la transcripción. Consulte Reconocimiento de voz para obtener más información.
Confianza	words.confidence	double
Comenzar	words.start	integer
Fin	words.end	integer
Mensaje de texto	words.text	string
Orador	words.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null
Grabaciones de voz	utterances	array of object	Cuando se habilita dual_channel o speaker_labels, una lista de objetos de expresión turn-by-turn. Consulte Diarización del hablante para obtener más información.
Confianza	utterances.confidence	double	Puntuación de confianza de la transcripción de esta expresión
Comenzar	utterances.start	integer	Hora de inicio, en milisegundos, de la expresión en el archivo de audio
Fin	utterances.end	integer	Hora de finalización, en milisegundos, de la expresión en el archivo de audio
Mensaje de texto	utterances.text	string	Texto de esta expresión
Palabras	utterances.words	array of object	Palabras de la expresión.
Confianza	utterances.words.confidence	double
Comenzar	utterances.words.start	integer
Fin	utterances.words.end	integer
Mensaje de texto	utterances.words.text	string
Orador	utterances.words.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null
Orador	utterances.speaker	string	El hablante de esta expresión, donde a cada hablante se le asigna una letra mayúscula secuencial( por ejemplo, "A" para speaker A, "B" para speaker B, etc.
Confianza	confidence	double	Puntuación de confianza de la transcripción, entre 0,0 (confianza baja) y 1,0 (confianza alta)
Duración de audio	audio_duration	integer	Duración del archivo multimedia de este objeto de transcripción, en segundos
Puntuar	punctuate	boolean	Si la puntuación automática está habilitada, true o false
Formato de texto	format_text	boolean	Si el formato de texto está habilitado, true o false
Disfluencies	disfluencies	boolean	Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false
Canal dual	dual_channel	boolean	Indica si la transcripción de canales duales se ha habilitado en la solicitud de transcripción, ya sea true o false.
Webhook URL	webhook_url	string	Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado.
Código de estado HTTP de webhook	webhook_status_code	integer	El código de estado que recibimos del servidor al entregar la transcripción completada o con errores de solicitud de webhook, si se proporcionó una dirección URL de webhook.
Autenticación de webhook habilitada	webhook_auth	boolean	Si se proporcionaron detalles de autenticación de webhook
Nombre del encabezado de autenticación de webhook	webhook_auth_header_name	string	Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores
Aumento de velocidad	speed_boost	boolean	Indica si el aumento de velocidad está habilitado
Frases clave	auto_highlights	boolean	Si las frases clave están habilitadas, true o false
Estado	auto_highlights_result.status	string	Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo
Results	auto_highlights_result.results	array of object	Matriz secuencial temporal de frases clave
Contar	auto_highlights_result.results.count	integer	Número total de veces que aparece la frase clave en el archivo de audio
Rango	auto_highlights_result.results.rank	float	La relevancia total del archivo de audio general de esta frase clave: un número mayor significa más relevante.
Mensaje de texto	auto_highlights_result.results.text	string	El propio texto de la frase clave
Marcas de tiempo	auto_highlights_result.results.timestamps	array of object	Marca de tiempo de de la frase clave
Comenzar	auto_highlights_result.results.timestamps.start	integer	Hora de inicio en milisegundos
Fin	auto_highlights_result.results.timestamps.end	integer	Hora de finalización en milisegundos
Inicio de audio desde	audio_start_from	integer	El momento dado, en milisegundos, en el archivo en el que se inició la transcripción
Extremo de audio al	audio_end_at	integer	El punto en el tiempo, en milisegundos, en el archivo en el que se finalizó la transcripción
Aumento de palabras	word_boost	array of string	Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para
Impulsar	boost_param	string	Valor del parámetro word boost
Filtrar palabras soeces	filter_profanity	boolean	Si el filtrado de palabras soeces está habilitado, true o false
Censura de PII	redact_pii	boolean	Indica si la reacción de PII está habilitada, ya sea true o false
Censurar audio PII	redact_pii_audio	boolean	Si se generó una versión redactada del archivo de audio, true o false. Consulte La redacción de PII para obtener más información.
Redacción de la calidad de audio PII	redact_pii_audio_quality	string	Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles.
Censura de directivas de PII	redact_pii_policies	array of string	La lista de directivas de redacción de PII que se habilitaron, si piI Redaction está habilitada. Consulte La redacción de PII para obtener más información.
Redacción de la sustitución de PII	redact_pii_sub	string	La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles.
Etiquetas de altavoz	speaker_labels	boolean	Si la diarización del hablante está habilitada, puede ser true o false
Se esperaban hablantes	speakers_expected	integer	Indique al modelo de etiqueta del hablante cuántos hablantes debe intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles.
Moderación de contenido	content_safety	boolean	Si la moderación de contenido está habilitada, puede ser true o false
Estado	content_safety_labels.status	string	Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo
Results	content_safety_labels.results	array of object
Mensaje de texto	content_safety_labels.results.text	string	Transcripción de la sección marcada por el modelo de moderación de contenido
Etiquetas	content_safety_labels.results.labels	array of object	Matriz de etiquetas de seguridad, una por tema confidencial que se detectó en la sección
Etiqueta	content_safety_labels.results.labels.label	string	Etiqueta del tema confidencial
Confianza	content_safety_labels.results.labels.confidence	double	Puntuación de confianza para el tema que se trata, de 0 a 1
Severity	content_safety_labels.results.labels.severity	double	La gravedad del tema se describe en la sección, de 0 a 1
Inicio del índice de oraciones	content_safety_labels.results.sentences_idx_start	integer	Índice de oraciones en el que comienza la sección
Fin del índice de oraciones	content_safety_labels.results.sentences_idx_end	integer	Índice de oración en el que finaliza la sección
Comenzar	content_safety_labels.results.timestamp.start	integer	Hora de inicio en milisegundos
Fin	content_safety_labels.results.timestamp.end	integer	Hora de finalización en milisegundos
Resumen	content_safety_labels.summary	object	Resumen de los resultados de confianza de moderación de contenido para todo el archivo de audio
Resumen de puntuación de gravedad	content_safety_labels.severity_score_summary	object	Resumen de los resultados de gravedad de moderación de contenido para todo el archivo de audio
Detección de temas	iab_categories	boolean	Si la detección de temas está habilitada, puede ser true o false
Estado	iab_categories_result.status	string	Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo
Results	iab_categories_result.results	array of object	Matriz de resultados para el modelo de detección de temas
Mensaje de texto	iab_categories_result.results.text	string	Texto de la transcripción en la que se produce un tema detectado
Etiquetas	iab_categories_result.results.labels	array of object
Pertinencia	iab_categories_result.results.labels.relevance	double	Cómo es relevante el tema detectado de un tema detectado
Etiqueta	iab_categories_result.results.labels.label	string	Etiqueta taxonómica de IAB para la etiqueta del tema detectado, donde > denota la relación supertopic/subtopic
Comenzar	iab_categories_result.results.timestamp.start	integer	Hora de inicio en milisegundos
Fin	iab_categories_result.results.timestamp.end	integer	Hora de finalización en milisegundos
Resumen	iab_categories_result.summary	object	Relevancia general del tema en todo el archivo de audio
Ortografías personalizadas	custom_spelling	array of object	Personalización de cómo se escriben y se da formato a las palabras mediante valores hacia y desde
De	custom_spelling.from	array of string	Palabras o frases que se van a reemplazar
Para	custom_spelling.to	string	Palabra o frase que se va a reemplazar por
Capítulos automáticos habilitados	auto_chapters	boolean	Si los capítulos automáticos están habilitados, puede ser true o false
Capítulos	chapters	array of object	Matriz de capítulos secuenciales temporales para el archivo de audio
Gist	chapters.gist	string	Un resumen ultra corto (solo unas pocas palabras) del contenido hablado en el capítulo
Titular	chapters.headline	string	Resumen de una sola oración del contenido hablado durante el capítulo
Resumen	chapters.summary	string	Un resumen de un párrafo del contenido hablado durante el capítulo
Comenzar	chapters.start	integer	Hora de inicio, en milisegundos, para el capítulo
Fin	chapters.end	integer	Hora de inicio, en milisegundos, para el capítulo
Resumen habilitado	summarization	boolean	Si el resumen está habilitado, true o false
Tipo de resumen	summary_type	string	El tipo de resumen generado, si el resumen está habilitado.
Modelo de resumen	summary_model	string	El modelo de resumen que se usa para generar el resumen, si el resumen está habilitado.
Resumen	summary	string	Resumen generado del archivo multimedia, si el resumen está habilitado.
Temas personalizados habilitados	custom_topics	boolean	Si los temas personalizados están habilitados, true o false
Temas	topics	array of string	La lista de temas personalizados proporcionados si los temas personalizados están habilitados
Sentiment Analysis	sentiment_analysis	boolean	Si el análisis de sentimiento está habilitado, puede ser true o false
Resultados del análisis de sentimiento	sentiment_analysis_results	array of object	Matriz de resultados para el modelo de análisis de sentimiento, si está habilitado. Consulte Análisis de sentimiento para obtener más información.
Mensaje de texto	sentiment_analysis_results.text	string	Transcripción de la oración
Comenzar	sentiment_analysis_results.start	integer	Hora de inicio, en milisegundos, de la oración
Fin	sentiment_analysis_results.end	integer	Hora de finalización, en milisegundos, de la oración
Sentimiento	sentiment_analysis_results.sentiment		La opinión detectada para la frase, una de positiva, NEUTRAL, NEGATIVA
Confianza	sentiment_analysis_results.confidence	double	Puntuación de confianza para la opinión detectada de la oración, de 0 a 1
Orador	sentiment_analysis_results.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null
Detección de entidades	entity_detection	boolean	Si la detección de entidades está habilitada, puede ser true o false
Entities	entities	array of object	Matriz de resultados para el modelo de detección de entidades, si está habilitado. Consulte Detección de entidades para obtener más información.
Tipo de entidad	entities.entity_type	string	Tipo de entidad para la entidad detectada
Mensaje de texto	entities.text	string	Texto de la entidad detectada
Comenzar	entities.start	integer	Hora de inicio, en milisegundos, en la que la entidad detectada aparece en el archivo de audio.
Fin	entities.end	integer	Hora de finalización, en milisegundos, para la entidad detectada en el archivo de audio
Umbral de voz	speech_threshold	float	El valor predeterminado es NULL. Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1].
Sofocada	throttled	boolean	True mientras se limita una solicitud y false cuando ya no se limita una solicitud
Error	error	string	Mensaje de error de por qué se produjo un error en la transcripción
Modelo de lenguaje	language_model	string	Modelo de lenguaje que se usó para la transcripción
Modelo acústico	acoustic_model	string	Modelo acústico que se usó para la transcripción

SentencesResponse

Nombre	Ruta de acceso	Tipo	Description
Id. de transcripción	id	uuid
Confianza	confidence	double
Duración de audio	audio_duration	number
Oraciones	sentences	array of object
Mensaje de texto	sentences.text	string
Comenzar	sentences.start	integer
Fin	sentences.end	integer
Confianza	sentences.confidence	double
Palabras	sentences.words	array of object
Confianza	sentences.words.confidence	double
Comenzar	sentences.words.start	integer
Fin	sentences.words.end	integer
Mensaje de texto	sentences.words.text	string
Orador	sentences.words.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null
Orador	sentences.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

ParagraphsResponse

Nombre	Ruta de acceso	Tipo	Description
Id. de transcripción	id	uuid
Confianza	confidence	double
Duración de audio	audio_duration	number
Paragraphs	paragraphs	array of object
Mensaje de texto	paragraphs.text	string
Comenzar	paragraphs.start	integer
Fin	paragraphs.end	integer
Confianza	paragraphs.confidence	double
Palabras	paragraphs.words	array of object
Confianza	paragraphs.words.confidence	double
Comenzar	paragraphs.words.start	integer
Fin	paragraphs.words.end	integer
Mensaje de texto	paragraphs.words.text	string
Orador	paragraphs.words.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null
Orador	paragraphs.speaker	string	El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null

TranscriptList

Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.

Nombre	Ruta de acceso	Tipo	Description
Limit	page_details.limit	integer	El número de resultados de esta página está limitado a
Número de resultados	page_details.result_count	integer	Número real de resultados en la página
Dirección URL actual	page_details.current_url	string	Dirección URL usada para recuperar la página actual de transcripciones
Dirección URL anterior	page_details.prev_url	string	Dirección URL a la página siguiente de transcripciones. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.
Dirección URL siguiente	page_details.next_url	string	Dirección URL a la página siguiente de transcripciones. La siguiente dirección URL siempre apunta a una página con transcripciones más recientes.
Transcripts	transcripts	array of object
identificación	transcripts.id	uuid
Dirección URL del recurso	transcripts.resource_url	string
Estado	transcripts.status	string	El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores.
Creado	transcripts.created	string
Completado	transcripts.completed	string
Audio URL	transcripts.audio_url	string
Error	transcripts.error	string	Mensaje de error de por qué se produjo un error en la transcripción

UploadedFile

Nombre	Ruta de acceso	Tipo	Description
Dirección URL del archivo cargado	upload_url	string	Dirección URL que apunta al archivo de audio, accesible solo por los servidores de AssemblyAI.

PurgeLemurRequestDataResponse

Nombre	Ruta de acceso	Tipo	Description
Identificador de solicitud de purga	request_id	uuid	Identificador de la solicitud de eliminación de la solicitud leMUR
Identificador de solicitud de LeMUR para purgar	request_id_to_purge	uuid	Identificador de la solicitud leMUR para purgar los datos de
Borrado	deleted	boolean	Si se eliminaron los datos de la solicitud

LemurTaskResponse

Nombre	Ruta de acceso	Tipo	Description
Respuesta	response	string	Respuesta generada por LeMUR.
Identificador de solicitud de LeMUR	request_id	uuid	Identificador de la solicitud leMUR
Tokens de entrada	usage.input_tokens	integer	Número de tokens de entrada usados por el modelo
Tokens de salida	usage.output_tokens	integer	Número de tokens de salida generados por el modelo

LemurResponse

Nombre	Ruta de acceso	Tipo	Description
Respuesta	response	string	Respuesta generada por LeMUR.
Identificador de solicitud de LeMUR	request_id	uuid	Identificador de la solicitud leMUR
Tokens de entrada	usage.input_tokens	integer	Número de tokens de entrada usados por el modelo
Tokens de salida	usage.output_tokens	integer	Número de tokens de salida generados por el modelo

cuerda / cadena

Este es el tipo de datos básico "string".

Compartir a través de

AssemblyAI (versión preliminar)

Prerrequisitos

Obtención de credenciales

Introducción al conector

Cargar un archivo

Transcribir audio

Control del webhook listo para transcripción

Sondear el estado de transcripción

Agregar más acciones

Problemas y limitaciones conocidos

Errores y soluciones comunes

Preguntas más frecuentes

Creación de una conexión

Predeterminado

Limitaciones

Acciones

Buscar palabras en transcripción

Parámetros

Devoluciones

Cargar un archivo multimedia

Parámetros

Devoluciones

Ejecutar una tarea mediante LeMUR

Parámetros

Devoluciones

Eliminar transcripción

Parámetros

Devoluciones

Enumerar transcripciones

Parámetros

Devoluciones

Obtener audio censurado

Parámetros

Devoluciones

Obtener oraciones en transcripción

Parámetros

Devoluciones

Obtener párrafos en transcripción

Parámetros

Devoluciones

Obtener subtítulos para transcripción

Parámetros

Devoluciones

Obtener transcripción

Parámetros

Devoluciones

Purgar datos de solicitud de LeMUR

Parámetros

Devoluciones

Recuperación de la respuesta de LeMUR

Parámetros

Devoluciones

Transcribir audio

Parámetros

Devoluciones

Definiciones

RedactedAudioResponse

WordSearchResponse

Transcripción

SentencesResponse

ParagraphsResponse

TranscriptList

UploadedFile

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResponse

cuerda / cadena