AssemblyAI (versión preliminar)
Transcriba y extraiga datos de audio mediante speech AI de AssemblyAI.
Este conector está disponible en los siguientes productos y regiones:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Aplicaciones lógicas | Estándar | Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure Government - Regiones de Azure China - Departamento de Defensa de EE. UU. (DoD) |
| Power Apps | Premium | Todas las regiones de Power Apps excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Power Automate | Premium | Todas las regiones de Power Automate excepto las siguientes: - Gobierno de EE. UU. (GCC) - Gobierno de EE. UU. (GCC High) - China Cloud operado por 21Vianet - Departamento de Defensa de EE. UU. (DoD) |
| Contacto | |
|---|---|
| Nombre | Support |
| URL | https://www.assemblyai.com/docs/ |
| Correo Electrónico | support@assemblyai.com |
| Metadatos del conector | |
|---|---|
| Publicador | AssemblyAI |
| Sitio web | https://www.assemblyai.com |
| Directiva de privacidad | https://www.assemblyai.com/legal/privacy-policy |
| Categorías | AI |
Con assemblyAI Connector, puede usar los modelos de AssemblyAI para procesar datos de audio transcribiéndolos con modelos de reconocimiento de voz, analizandolos con modelos de inteligencia de audio y creando características generativas sobre ellos con LLMs.
- Conversión de voz a texto , incluidas muchas características configurables, como la diarización del hablante, la ortografía personalizada, el vocabulario personalizado, etc.
- Los modelos de inteligencia de audio son modelos de inteligencia artificial adicionales disponibles y configurados a través de la configuración de transcripción.
- LeMUR le permite aplicar varios modelos LLM a sus transcripciones sin necesidad de crear su propia infraestructura rag para transcripciones muy grandes.
Prerrequisitos
Necesitará lo siguiente para continuar:
- Una clave de API de AssemblyAI (obtenga una de forma gratuita)
Obtención de credenciales
Puede obtener una clave de API de AssemblyAI de forma gratuita si se registra para obtener una cuenta y copia la clave de API desde el panel.
Introducción al conector
Siga estos pasos para transcribir audio mediante el conector AssemblyAI.
Cargar un archivo
Para transcribir un archivo de audio mediante AssemblyAI, el archivo debe ser accesible para AssemblyAI. Si el archivo de audio ya es accesible a través de una dirección URL, puede usar la dirección URL existente.
De lo contrario, puede usar la Upload a File acción para cargar un archivo en AssemblyAI.
Obtendrá una dirección URL para el archivo que solo se puede usar para transcribir mediante la clave de API.
Una vez transcribido el archivo, el archivo se quitará de los servidores de AssemblyAI.
Transcribir audio
Para transcribir el audio, configure el parámetro mediante la Audio URL dirección URL del archivo de audio.
A continuación, configure los parámetros adicionales para habilitar más características de reconocimiento de voz y modelos de Audio Intelligence .
El resultado de la acción Transcribir audio es una transcripción en cola que comenzará a procesarse inmediatamente. Para obtener la transcripción completada, tiene dos opciones:
Control del webhook listo para transcripción
Si no desea controlar el webhook mediante Logic Apps o Power Automate, configure el parámetro en la Transcribe Audio acción e implemente el webhook siguiendo la Webhook URLdocumentación del webhook de AssemblyAI.
Para controlar el webhook mediante Logic Apps o Power Automate, siga estos pasos:
Creación de una aplicación lógica independiente o un flujo de Power Automate
Configure
When an HTTP request is receivedcomo desencadenador:- Establezca
Who Can Trigger The Flow?enAnyone. - Establézcalo
Request Body JSON Schemaen:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Establezca
MethodenPOST.
- Establezca
Agregue una acción AssemblyAI
Get Transcript, pasando desdetranscript_idel desencadenador alTranscript IDparámetro .Antes de hacer cualquier otra cosa, debe comprobar si es
Statuscompletedoerror. Agregue unaConditionacción que compruebe si elStatusobjeto de laGet Transcriptsalida eserror:- En la
Truerama, agregue unaTerminateacción.- Establezca en .
StatusFailed - Establezca en .
CodeTranscript Error - Pase de
ErrorlaGet Transcriptsalida alMessageparámetro .
- Establezca en .
- Puede dejar la
Falserama vacía.
Ahora puede agregar cualquier acción después
Conditionde conocer el estado de la transcripción escompletedy puede recuperar cualquiera de las propiedades de salida de laGet Transcriptacción.- En la
Guarde la aplicación lógica o el flujo.
HTTP URLSe generará para elWhen an HTTP request is receiveddesencadenador. Copie yHTTP URLvuelva a la aplicación lógica original o a Flow.En la aplicación lógica o flujo original, actualice la
Transcribe Audioacción. Pegue el objetoHTTP URLque copió anteriormente en elWebhook URLparámetro y guárdelo.
Cuando el estado de la transcripción se convierte en completed o error, AssemblyAI enviará una solicitud HTTP POST a la dirección URL del webhook, que se controlará mediante su otra aplicación lógica o Flow.
Como alternativa al uso del webhook, puede sondear el estado de la transcripción como se explica en la sección siguiente.
Sondear el estado de transcripción
Puede sondear el estado de la transcripción mediante los pasos siguientes:
Agregar una
Initialize variableacción- Establezca
Nameentranscript_status. - Establezca
TypeenString. - Almacenar desde
StatuslaTranscribe Audiosalida en elValueparámetro
- Establezca
Agregar una
Do untilacción- Configure el
Loop Untilparámetro con el código Fx siguiente:
Este código comprueba si laor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_statusvariable escompletedoerror. - Configuración del
Countparámetro en86400 - Configuración del
Timeoutparámetro enPT24H
Dentro de la
Do untilacción, agregue las siguientes acciones:- Adición de una
Delayacción que espera un segundo - Agregue una
Get Transcriptacción y pase deIDlaTranscribe Audiosalida alTranscript IDparámetro . - Agregar una
Set variableacción- Establezca
Nameentranscript_status. - Pasar el
Statusde laGet Transcriptsalida alValueparámetro
- Establezca
El
Do untilbucle continuará hasta que se complete la transcripción o se produzca un error.- Configure el
Agregue otra
Get Transcriptacción, como antes, pero agréguela después delDo untilbucle para que su salida esté disponible fuera del ámbito de laDo untilacción.
Antes de hacer cualquier otra cosa, debe comprobar si la transcripción Status es completed o error.
Agregue una Condition acción que compruebe si transcript_status es error:
- En la
Truerama, agregue unaTerminateacción.- Establezca
StatusenFailed. - Establezca
CodeenTranscript Error. - Pase de
ErrorlaGet Transcriptsalida alMessageparámetro .
- Establezca
- Puede dejar la
Falserama vacía.
Ahora puede agregar cualquier acción después Condition de conocer el estado de la transcripción es completedy puede recuperar cualquiera de las propiedades de salida de la Get Transcript acción.
Agregar más acciones
Ahora que ha completado la transcripción, puede usar muchas otras acciones pasando la ID de la transcripción, como
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Problemas y limitaciones conocidos
Actualmente no hay problemas conocidos. No se admite streaming de voz:To-Text (en tiempo real), ya que no es posible usar conectores personalizados.
Errores y soluciones comunes
Puede encontrar más información sobre los errores en la documentación de AssemblyAI.
Preguntas más frecuentes
Puede encontrar las preguntas más frecuentes en nuestra documentación.
Creación de una conexión
El conector admite los siguientes tipos de autenticación:
| Predeterminado | Parámetros para crear una conexión. | Todas las regiones | No se puede compartir |
Predeterminado
Aplicable: Todas las regiones
Parámetros para crear una conexión.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Clave de API de AssemblyAI | securestring | Clave de API de AssemblyAI para autenticar la API de AssemblyAI. | Cierto |
Limitaciones
| Nombre | Llamadas | Período de renovación |
|---|---|---|
| Llamadas API por conexión | 100 | 60 segundos |
Acciones
| Buscar palabras en transcripción |
Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números. |
| Cargar un archivo multimedia |
Cargue un archivo multimedia en los servidores de AssemblyAI. |
| Ejecutar una tarea mediante LeMUR |
Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM. |
| Eliminar transcripción |
Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados. |
| Enumerar transcripciones |
Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores. |
| Obtener audio censurado |
Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado. |
| Obtener oraciones en transcripción |
Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector. |
| Obtener párrafos en transcripción |
Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector. |
| Obtener subtítulos para transcripción |
Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos. |
| Obtener transcripción |
Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado". |
| Purgar datos de solicitud de LeMUR |
Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original. |
| Recuperación de la respuesta de LeMUR |
Recupere una respuesta leMUR que se generó anteriormente. |
| Transcribir audio |
Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL. |
Buscar palabras en transcripción
Busque palabras clave en la transcripción. Puede buscar palabras, números o frases individuales que contengan hasta cinco palabras o números.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
|
Palabras
|
words | True | array |
Palabras clave para buscar |
Devoluciones
- Body
- WordSearchResponse
Cargar un archivo multimedia
Cargue un archivo multimedia en los servidores de AssemblyAI.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Contenido del archivo
|
file | True | binary |
Archivo que se va a cargar. |
Devoluciones
- Body
- UploadedFile
Ejecutar una tarea mediante LeMUR
Use el punto de conexión de la tarea LeMUR para introducir su propio mensaje de LLM.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Pronto
|
prompt | True | string |
El texto para pedir al modelo que genere una salida deseada, incluido el contexto que quiera pasar al modelo. |
|
Identificadores de transcripción
|
transcript_ids | array of uuid |
Lista de transcripciones completadas con texto. Hasta un máximo de 100 archivos o 100 horas, lo que sea menor. Use transcript_ids o input_text como entrada en LeMUR. |
|
|
Texto de entrada
|
input_text | string |
Datos de transcripción con formato personalizado. El tamaño máximo es el límite de contexto del modelo seleccionado, que tiene como valor predeterminado 100000. Use transcript_ids o input_text como entrada en LeMUR. |
|
|
Context
|
context | string |
Contexto para proporcionar el modelo. Puede ser una cadena o un valor JSON de forma libre. |
|
|
Modelo final
|
final_model | string |
Modelo que se usa para el mensaje final después de realizar la compresión. |
|
|
Tamaño máximo de salida
|
max_output_size | integer |
Tamaño máximo de salida en tokens, hasta 4000 |
|
|
Temperatura
|
temperature | float |
Temperatura que se va a usar para el modelo. Los valores más altos dan como resultado respuestas más creativas y valores más bajos son más conservadores. Puede ser cualquier valor entre 0,0 y 1,0 inclusive. |
Devoluciones
- Body
- LemurTaskResponse
Eliminar transcripción
Elimine la transcripción. La eliminación no elimina el propio recurso, pero quita los datos del recurso y los marca como eliminados.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
Devoluciones
Un objeto de transcripción
- Body
- Transcript
Enumerar transcripciones
Recupere una lista de transcripciones que ha creado. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Limit
|
limit | integer |
Cantidad máxima de transcripciones que se van a recuperar |
|
|
Estado
|
status | string |
El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores. |
|
|
Creadas el
|
created_on | date |
Obtenga solo las transcripciones creadas en esta fecha. |
|
|
Antes del identificador
|
before_id | uuid |
Obtención de transcripciones que se crearon antes de este identificador de transcripción |
|
|
Después del identificador
|
after_id | uuid |
Obtención de transcripciones que se crearon después de este identificador de transcripción |
|
|
Solo limitado
|
throttled_only | boolean |
Solo obtiene transcripciones limitadas, invalida el filtro de estado. |
Devoluciones
Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.
- Body
- TranscriptList
Obtener audio censurado
Recupere el objeto de audio censurado que contiene el estado y la dirección URL del audio censurado.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
Devoluciones
Obtener oraciones en transcripción
Obtenga la transcripción dividida por oraciones. La API intentará segmentar semánticamente la transcripción en oraciones para crear transcripciones más fáciles de lector.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
Devoluciones
- Body
- SentencesResponse
Obtener párrafos en transcripción
Obtenga la transcripción dividida por párrafos. La API intentará segmentar semánticamente la transcripción en párrafos para crear transcripciones más fáciles de lector.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
Devoluciones
- Body
- ParagraphsResponse
Obtener subtítulos para transcripción
Exporte la transcripción en formato SRT o VTT para usarla con un reproductor de vídeo para subtítulos y subtítulos.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
|
Formato de subtítulo
|
subtitle_format | True | string |
Formato de los subtítulos |
|
Número de caracteres por título
|
chars_per_caption | integer |
Número máximo de caracteres por título |
Devoluciones
- response
- string
Obtener transcripción
Obtenga el recurso de transcripción. La transcripción está lista cuando el "estado" está "completado".
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id. de transcripción
|
transcript_id | True | string |
Identificador de la transcripción |
Devoluciones
Un objeto de transcripción
- Body
- Transcript
Purgar datos de solicitud de LeMUR
Elimine los datos de una solicitud LeMUR enviada previamente. Se quitarán los datos de respuesta de LLM, así como cualquier contexto proporcionado en la solicitud original.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Identificador de solicitud de LeMUR
|
request_id | True | string |
Identificador de la solicitud LeMUR cuyos datos desea eliminar. Esto se encontraría en la respuesta de la solicitud original. |
Devoluciones
Recuperación de la respuesta de LeMUR
Recupere una respuesta leMUR que se generó anteriormente.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Identificador de solicitud de LeMUR
|
request_id | True | string |
Identificador de la solicitud de LeMUR que ha realizado anteriormente. Esto se encontraría en la respuesta de la solicitud original. |
Devoluciones
- Body
- LemurResponse
Transcribir audio
Cree una transcripción a partir de un archivo multimedia al que se pueda acceder a través de una dirección URL.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Audio URL
|
audio_url | True | string |
Dirección URL del archivo de audio o vídeo que se va a transcribir. |
|
Código de lenguaje
|
language_code | string |
Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us". |
|
|
Language Detection
|
language_detection | boolean |
Habilite Detección automática de idioma, true o false. |
|
|
Modelo de voz
|
speech_model | string |
Modelo de voz que se va a usar para la transcripción. |
|
|
Puntuar
|
punctuate | boolean |
Habilitar puntuación automática, puede ser true o false |
|
|
Formato de texto
|
format_text | boolean |
Habilitar el formato de texto, puede ser true o false |
|
|
Disfluencies
|
disfluencies | boolean |
Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false |
|
|
Canal dual
|
dual_channel | boolean |
Habilite la transcripción de canales duales, puede ser true o false. |
|
|
Webhook URL
|
webhook_url | string |
Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado. |
|
|
Nombre del encabezado de autenticación de webhook
|
webhook_auth_header_name | string |
Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores |
|
|
Valor de encabezado de autenticación de webhook
|
webhook_auth_header_value | string |
Valor de encabezado que se va a devolver con la transcripción completada o con solicitudes de webhook con errores para la seguridad agregada. |
|
|
Frases clave
|
auto_highlights | boolean |
Habilitar frases clave, true o false |
|
|
Inicio de audio desde
|
audio_start_from | integer |
El momento dado, en milisegundos, para empezar a transcribir en el archivo multimedia |
|
|
Extremo de audio al
|
audio_end_at | integer |
El momento dado, en milisegundos, para dejar de transcribir en el archivo multimedia |
|
|
Aumento de palabras
|
word_boost | array of string |
Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para |
|
|
Nivel de aumento de palabras
|
boost_param | string |
Cantidad de palabras especificadas |
|
|
Filtrar palabras soeces
|
filter_profanity | boolean |
Filtrar palabras soeces del texto transcrito, puede ser true o false |
|
|
Censura de PII
|
redact_pii | boolean |
Censura de PII del texto transcrito mediante el modelo de redacción de PII, puede ser true o false |
|
|
Censurar audio PII
|
redact_pii_audio | boolean |
Generar una copia del archivo multimedia original con piI hablado "pitido", puede ser true o false. Consulte La redacción de PII para obtener más detalles. |
|
|
Redacción de la calidad de audio PII
|
redact_pii_audio_quality | string |
Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles. |
|
|
Censura de directivas de PII
|
redact_pii_policies | array of string |
Lista de directivas de reacción de PII que se van a habilitar. Consulte La redacción de PII para obtener más detalles. |
|
|
Redacción de la sustitución de PII
|
redact_pii_sub | string |
La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles. |
|
|
Etiquetas de altavoz
|
speaker_labels | boolean |
Habilitar la diarización del hablante, puede ser true o false |
|
|
Se esperaban hablantes
|
speakers_expected | integer |
Indica al modelo de etiqueta del hablante cuántos hablantes deben intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles. |
|
|
Moderación de contenido
|
content_safety | boolean |
Habilitar moderación de contenido, puede ser true o false |
|
|
Confianza de moderación de contenido
|
content_safety_confidence | integer |
Umbral de confianza para el modelo de moderación de contenido. Los valores deben estar comprendidos entre 25 y 100. |
|
|
Detección de temas
|
iab_categories | boolean |
Habilitar detección de temas, puede ser true o false |
|
|
De
|
from | True | array of string |
Palabras o frases que se van a reemplazar |
|
Para
|
to | True | string |
Palabra o frase que se va a reemplazar por |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Habilitar el análisis de sentimiento, puede ser true o false |
|
|
Capítulos automáticos
|
auto_chapters | boolean |
Habilitar capítulos automáticos, puede ser true o false |
|
|
Detección de entidades
|
entity_detection | boolean |
Habilitar detección de entidades, puede ser true o false |
|
|
Umbral de voz
|
speech_threshold | float |
Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1]. |
|
|
Habilitar resumen
|
summarization | boolean |
Habilitar resumen, puede ser true o false |
|
|
Modelo de resumen
|
summary_model | string |
Modelo para resumir la transcripción |
|
|
Tipo de resumen
|
summary_type | string |
Tipo de resumen |
|
|
Habilitación de temas personalizados
|
custom_topics | boolean |
Habilitación de temas personalizados, true o false |
|
|
Temas personalizados
|
topics | array of string |
Lista de temas personalizados |
Devoluciones
Un objeto de transcripción
- Body
- Transcript
Definiciones
RedactedAudioResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Estado
|
status | string |
Estado del audio censurado |
|
Dirección URL de audio redactada
|
redacted_audio_url | string |
Dirección URL del archivo de audio censurado |
WordSearchResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Id. de transcripción
|
id | uuid |
Identificador de la transcripción |
|
Recuento total de coincidencias
|
total_count | integer |
Recuento total de todas las instancias coincidentes. Por ejemplo, la palabra 1 coincide con 2 veces y la palabra 2 coincide con 3 veces, total_count será igual a 5. |
|
Coincidencias
|
matches | array of object |
Coincidencias de la búsqueda |
|
Mensaje de texto
|
matches.text | string |
Palabra coincidente |
|
Contar
|
matches.count | integer |
Cantidad total de veces que la palabra está en la transcripción |
|
Marcas de tiempo
|
matches.timestamps | array of array |
Matriz de marcas de tiempo |
|
Marca de tiempo
|
matches.timestamps | array of integer |
Matriz de marcas de tiempo estructuradas como [start_time, end_time] en milisegundos |
|
Indexes
|
matches.indexes | array of integer |
Matriz de todas las ubicaciones de índice de esa palabra dentro de la matriz de palabras de la transcripción completada |
Transcripción
Un objeto de transcripción
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
identificación
|
id | uuid |
Identificador único de la transcripción |
|
Audio URL
|
audio_url | string |
Dirección URL de los medios que se transcribieron |
|
Estado
|
status | string |
El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores. |
|
Código de lenguaje
|
language_code | string |
Idioma del archivo de audio. Los valores posibles se encuentran en Idiomas admitidos. El valor predeterminado es "en_us". |
|
Language Detection
|
language_detection | boolean |
Si la detección automática de idioma está habilitada, true o false |
|
Modelo de voz
|
speech_model | string |
Modelo de voz que se va a usar para la transcripción. |
|
Mensaje de texto
|
text | string |
Transcripción textual del archivo multimedia |
|
Palabras
|
words | array of object |
Matriz de objetos de palabras secuenciales temporales, una para cada palabra de la transcripción. Consulte Reconocimiento de voz para obtener más información. |
|
Confianza
|
words.confidence | double | |
|
Comenzar
|
words.start | integer | |
|
Fin
|
words.end | integer | |
|
Mensaje de texto
|
words.text | string | |
|
Orador
|
words.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
|
Grabaciones de voz
|
utterances | array of object |
Cuando se habilita dual_channel o speaker_labels, una lista de objetos de expresión turn-by-turn. Consulte Diarización del hablante para obtener más información. |
|
Confianza
|
utterances.confidence | double |
Puntuación de confianza de la transcripción de esta expresión |
|
Comenzar
|
utterances.start | integer |
Hora de inicio, en milisegundos, de la expresión en el archivo de audio |
|
Fin
|
utterances.end | integer |
Hora de finalización, en milisegundos, de la expresión en el archivo de audio |
|
Mensaje de texto
|
utterances.text | string |
Texto de esta expresión |
|
Palabras
|
utterances.words | array of object |
Palabras de la expresión. |
|
Confianza
|
utterances.words.confidence | double | |
|
Comenzar
|
utterances.words.start | integer | |
|
Fin
|
utterances.words.end | integer | |
|
Mensaje de texto
|
utterances.words.text | string | |
|
Orador
|
utterances.words.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
|
Orador
|
utterances.speaker | string |
El hablante de esta expresión, donde a cada hablante se le asigna una letra mayúscula secuencial( por ejemplo, "A" para speaker A, "B" para speaker B, etc. |
|
Confianza
|
confidence | double |
Puntuación de confianza de la transcripción, entre 0,0 (confianza baja) y 1,0 (confianza alta) |
|
Duración de audio
|
audio_duration | integer |
Duración del archivo multimedia de este objeto de transcripción, en segundos |
|
Puntuar
|
punctuate | boolean |
Si la puntuación automática está habilitada, true o false |
|
Formato de texto
|
format_text | boolean |
Si el formato de texto está habilitado, true o false |
|
Disfluencies
|
disfluencies | boolean |
Transcribe palabras de relleno, como "mmm", en el archivo multimedia; puede ser true o false |
|
Canal dual
|
dual_channel | boolean |
Indica si la transcripción de canales duales se ha habilitado en la solicitud de transcripción, ya sea true o false. |
|
Webhook URL
|
webhook_url | string |
Dirección URL a la que se envían solicitudes de webhook. Se envían dos tipos diferentes de solicitudes de webhook. Una solicitud cuando se completa o se produce un error en una transcripción, y una solicitud cuando el audio redactado está listo si redact_pii_audio está habilitado. |
|
Código de estado HTTP de webhook
|
webhook_status_code | integer |
El código de estado que recibimos del servidor al entregar la transcripción completada o con errores de solicitud de webhook, si se proporcionó una dirección URL de webhook. |
|
Autenticación de webhook habilitada
|
webhook_auth | boolean |
Si se proporcionaron detalles de autenticación de webhook |
|
Nombre del encabezado de autenticación de webhook
|
webhook_auth_header_name | string |
Nombre de encabezado que se va a enviar con la transcripción completada o con solicitudes de webhook con errores |
|
Aumento de velocidad
|
speed_boost | boolean |
Indica si el aumento de velocidad está habilitado |
|
Frases clave
|
auto_highlights | boolean |
Si las frases clave están habilitadas, true o false |
|
Estado
|
auto_highlights_result.status | string |
Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo |
|
Results
|
auto_highlights_result.results | array of object |
Matriz secuencial temporal de frases clave |
|
Contar
|
auto_highlights_result.results.count | integer |
Número total de veces que aparece la frase clave en el archivo de audio |
|
Rango
|
auto_highlights_result.results.rank | float |
La relevancia total del archivo de audio general de esta frase clave: un número mayor significa más relevante. |
|
Mensaje de texto
|
auto_highlights_result.results.text | string |
El propio texto de la frase clave |
|
Marcas de tiempo
|
auto_highlights_result.results.timestamps | array of object |
Marca de tiempo de de la frase clave |
|
Comenzar
|
auto_highlights_result.results.timestamps.start | integer |
Hora de inicio en milisegundos |
|
Fin
|
auto_highlights_result.results.timestamps.end | integer |
Hora de finalización en milisegundos |
|
Inicio de audio desde
|
audio_start_from | integer |
El momento dado, en milisegundos, en el archivo en el que se inició la transcripción |
|
Extremo de audio al
|
audio_end_at | integer |
El punto en el tiempo, en milisegundos, en el archivo en el que se finalizó la transcripción |
|
Aumento de palabras
|
word_boost | array of string |
Lista de vocabulario personalizado para aumentar la probabilidad de transcripción para |
|
Impulsar
|
boost_param | string |
Valor del parámetro word boost |
|
Filtrar palabras soeces
|
filter_profanity | boolean |
Si el filtrado de palabras soeces está habilitado, true o false |
|
Censura de PII
|
redact_pii | boolean |
Indica si la reacción de PII está habilitada, ya sea true o false |
|
Censurar audio PII
|
redact_pii_audio | boolean |
Si se generó una versión redactada del archivo de audio, true o false. Consulte La redacción de PII para obtener más información. |
|
Redacción de la calidad de audio PII
|
redact_pii_audio_quality | string |
Controla el tipo de archivo del audio creado por redact_pii_audio. Actualmente admite mp3 (valor predeterminado) y wav. Consulte La redacción de PII para obtener más detalles. |
|
Censura de directivas de PII
|
redact_pii_policies | array of string |
La lista de directivas de redacción de PII que se habilitaron, si piI Redaction está habilitada. Consulte La redacción de PII para obtener más información. |
|
Redacción de la sustitución de PII
|
redact_pii_sub | string |
La lógica de reemplazo de PII detectada puede ser "entity_name" o "hash". Consulte La redacción de PII para obtener más detalles. |
|
Etiquetas de altavoz
|
speaker_labels | boolean |
Si la diarización del hablante está habilitada, puede ser true o false |
|
Se esperaban hablantes
|
speakers_expected | integer |
Indique al modelo de etiqueta del hablante cuántos hablantes debe intentar identificar, hasta 10. Consulte Diarización del hablante para obtener más detalles. |
|
Moderación de contenido
|
content_safety | boolean |
Si la moderación de contenido está habilitada, puede ser true o false |
|
Estado
|
content_safety_labels.status | string |
Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo |
|
Results
|
content_safety_labels.results | array of object | |
|
Mensaje de texto
|
content_safety_labels.results.text | string |
Transcripción de la sección marcada por el modelo de moderación de contenido |
|
Etiquetas
|
content_safety_labels.results.labels | array of object |
Matriz de etiquetas de seguridad, una por tema confidencial que se detectó en la sección |
|
Etiqueta
|
content_safety_labels.results.labels.label | string |
Etiqueta del tema confidencial |
|
Confianza
|
content_safety_labels.results.labels.confidence | double |
Puntuación de confianza para el tema que se trata, de 0 a 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
La gravedad del tema se describe en la sección, de 0 a 1 |
|
Inicio del índice de oraciones
|
content_safety_labels.results.sentences_idx_start | integer |
Índice de oraciones en el que comienza la sección |
|
Fin del índice de oraciones
|
content_safety_labels.results.sentences_idx_end | integer |
Índice de oración en el que finaliza la sección |
|
Comenzar
|
content_safety_labels.results.timestamp.start | integer |
Hora de inicio en milisegundos |
|
Fin
|
content_safety_labels.results.timestamp.end | integer |
Hora de finalización en milisegundos |
|
Resumen
|
content_safety_labels.summary | object |
Resumen de los resultados de confianza de moderación de contenido para todo el archivo de audio |
|
Resumen de puntuación de gravedad
|
content_safety_labels.severity_score_summary | object |
Resumen de los resultados de gravedad de moderación de contenido para todo el archivo de audio |
|
Detección de temas
|
iab_categories | boolean |
Si la detección de temas está habilitada, puede ser true o false |
|
Estado
|
iab_categories_result.status | string |
Correcto o no disponible en el caso poco frecuente de que se produjo un error en el modelo |
|
Results
|
iab_categories_result.results | array of object |
Matriz de resultados para el modelo de detección de temas |
|
Mensaje de texto
|
iab_categories_result.results.text | string |
Texto de la transcripción en la que se produce un tema detectado |
|
Etiquetas
|
iab_categories_result.results.labels | array of object | |
|
Pertinencia
|
iab_categories_result.results.labels.relevance | double |
Cómo es relevante el tema detectado de un tema detectado |
|
Etiqueta
|
iab_categories_result.results.labels.label | string |
Etiqueta taxonómica de IAB para la etiqueta del tema detectado, donde > denota la relación supertopic/subtopic |
|
Comenzar
|
iab_categories_result.results.timestamp.start | integer |
Hora de inicio en milisegundos |
|
Fin
|
iab_categories_result.results.timestamp.end | integer |
Hora de finalización en milisegundos |
|
Resumen
|
iab_categories_result.summary | object |
Relevancia general del tema en todo el archivo de audio |
|
Ortografías personalizadas
|
custom_spelling | array of object |
Personalización de cómo se escriben y se da formato a las palabras mediante valores hacia y desde |
|
De
|
custom_spelling.from | array of string |
Palabras o frases que se van a reemplazar |
|
Para
|
custom_spelling.to | string |
Palabra o frase que se va a reemplazar por |
|
Capítulos automáticos habilitados
|
auto_chapters | boolean |
Si los capítulos automáticos están habilitados, puede ser true o false |
|
Capítulos
|
chapters | array of object |
Matriz de capítulos secuenciales temporales para el archivo de audio |
|
Gist
|
chapters.gist | string |
Un resumen ultra corto (solo unas pocas palabras) del contenido hablado en el capítulo |
|
Titular
|
chapters.headline | string |
Resumen de una sola oración del contenido hablado durante el capítulo |
|
Resumen
|
chapters.summary | string |
Un resumen de un párrafo del contenido hablado durante el capítulo |
|
Comenzar
|
chapters.start | integer |
Hora de inicio, en milisegundos, para el capítulo |
|
Fin
|
chapters.end | integer |
Hora de inicio, en milisegundos, para el capítulo |
|
Resumen habilitado
|
summarization | boolean |
Si el resumen está habilitado, true o false |
|
Tipo de resumen
|
summary_type | string |
El tipo de resumen generado, si el resumen está habilitado. |
|
Modelo de resumen
|
summary_model | string |
El modelo de resumen que se usa para generar el resumen, si el resumen está habilitado. |
|
Resumen
|
summary | string |
Resumen generado del archivo multimedia, si el resumen está habilitado. |
|
Temas personalizados habilitados
|
custom_topics | boolean |
Si los temas personalizados están habilitados, true o false |
|
Temas
|
topics | array of string |
La lista de temas personalizados proporcionados si los temas personalizados están habilitados |
|
Sentiment Analysis
|
sentiment_analysis | boolean |
Si el análisis de sentimiento está habilitado, puede ser true o false |
|
Resultados del análisis de sentimiento
|
sentiment_analysis_results | array of object |
Matriz de resultados para el modelo de análisis de sentimiento, si está habilitado. Consulte Análisis de sentimiento para obtener más información. |
|
Mensaje de texto
|
sentiment_analysis_results.text | string |
Transcripción de la oración |
|
Comenzar
|
sentiment_analysis_results.start | integer |
Hora de inicio, en milisegundos, de la oración |
|
Fin
|
sentiment_analysis_results.end | integer |
Hora de finalización, en milisegundos, de la oración |
|
Sentimiento
|
sentiment_analysis_results.sentiment |
La opinión detectada para la frase, una de positiva, NEUTRAL, NEGATIVA |
|
|
Confianza
|
sentiment_analysis_results.confidence | double |
Puntuación de confianza para la opinión detectada de la oración, de 0 a 1 |
|
Orador
|
sentiment_analysis_results.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
|
Detección de entidades
|
entity_detection | boolean |
Si la detección de entidades está habilitada, puede ser true o false |
|
Entities
|
entities | array of object |
Matriz de resultados para el modelo de detección de entidades, si está habilitado. Consulte Detección de entidades para obtener más información. |
|
Tipo de entidad
|
entities.entity_type | string |
Tipo de entidad para la entidad detectada |
|
Mensaje de texto
|
entities.text | string |
Texto de la entidad detectada |
|
Comenzar
|
entities.start | integer |
Hora de inicio, en milisegundos, en la que la entidad detectada aparece en el archivo de audio. |
|
Fin
|
entities.end | integer |
Hora de finalización, en milisegundos, para la entidad detectada en el archivo de audio |
|
Umbral de voz
|
speech_threshold | float |
El valor predeterminado es NULL. Rechazar archivos de audio que contengan menos de esta fracción de voz. Los valores válidos están incluidos en el intervalo [0, 1]. |
|
Sofocada
|
throttled | boolean |
True mientras se limita una solicitud y false cuando ya no se limita una solicitud |
|
Error
|
error | string |
Mensaje de error de por qué se produjo un error en la transcripción |
|
Modelo de lenguaje
|
language_model | string |
Modelo de lenguaje que se usó para la transcripción |
|
Modelo acústico
|
acoustic_model | string |
Modelo acústico que se usó para la transcripción |
SentencesResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Id. de transcripción
|
id | uuid | |
|
Confianza
|
confidence | double | |
|
Duración de audio
|
audio_duration | number | |
|
Oraciones
|
sentences | array of object | |
|
Mensaje de texto
|
sentences.text | string | |
|
Comenzar
|
sentences.start | integer | |
|
Fin
|
sentences.end | integer | |
|
Confianza
|
sentences.confidence | double | |
|
Palabras
|
sentences.words | array of object | |
|
Confianza
|
sentences.words.confidence | double | |
|
Comenzar
|
sentences.words.start | integer | |
|
Fin
|
sentences.words.end | integer | |
|
Mensaje de texto
|
sentences.words.text | string | |
|
Orador
|
sentences.words.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
|
Orador
|
sentences.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
ParagraphsResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Id. de transcripción
|
id | uuid | |
|
Confianza
|
confidence | double | |
|
Duración de audio
|
audio_duration | number | |
|
Paragraphs
|
paragraphs | array of object | |
|
Mensaje de texto
|
paragraphs.text | string | |
|
Comenzar
|
paragraphs.start | integer | |
|
Fin
|
paragraphs.end | integer | |
|
Confianza
|
paragraphs.confidence | double | |
|
Palabras
|
paragraphs.words | array of object | |
|
Confianza
|
paragraphs.words.confidence | double | |
|
Comenzar
|
paragraphs.words.start | integer | |
|
Fin
|
paragraphs.words.end | integer | |
|
Mensaje de texto
|
paragraphs.words.text | string | |
|
Orador
|
paragraphs.words.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
|
Orador
|
paragraphs.speaker | string |
El hablante de la oración si la diarización del hablante está habilitada; en caso contrario, null |
TranscriptList
Lista de transcripciones. Las transcripciones se ordenan de la más reciente a la más antigua. La dirección URL anterior siempre apunta a una página con transcripciones anteriores.
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Limit
|
page_details.limit | integer |
El número de resultados de esta página está limitado a |
|
Número de resultados
|
page_details.result_count | integer |
Número real de resultados en la página |
|
Dirección URL actual
|
page_details.current_url | string |
Dirección URL usada para recuperar la página actual de transcripciones |
|
Dirección URL anterior
|
page_details.prev_url | string |
Dirección URL a la página siguiente de transcripciones. La dirección URL anterior siempre apunta a una página con transcripciones anteriores. |
|
Dirección URL siguiente
|
page_details.next_url | string |
Dirección URL a la página siguiente de transcripciones. La siguiente dirección URL siempre apunta a una página con transcripciones más recientes. |
|
Transcripts
|
transcripts | array of object | |
|
identificación
|
transcripts.id | uuid | |
|
Dirección URL del recurso
|
transcripts.resource_url | string | |
|
Estado
|
transcripts.status | string |
El estado de la transcripción. Los valores posibles se ponen en cola, procesan, completan o producen errores. |
|
Creado
|
transcripts.created | string | |
|
Completado
|
transcripts.completed | string | |
|
Audio URL
|
transcripts.audio_url | string | |
|
Error
|
transcripts.error | string |
Mensaje de error de por qué se produjo un error en la transcripción |
UploadedFile
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Dirección URL del archivo cargado
|
upload_url | string |
Dirección URL que apunta al archivo de audio, accesible solo por los servidores de AssemblyAI. |
PurgeLemurRequestDataResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Identificador de solicitud de purga
|
request_id | uuid |
Identificador de la solicitud de eliminación de la solicitud leMUR |
|
Identificador de solicitud de LeMUR para purgar
|
request_id_to_purge | uuid |
Identificador de la solicitud leMUR para purgar los datos de |
|
Borrado
|
deleted | boolean |
Si se eliminaron los datos de la solicitud |
LemurTaskResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Respuesta
|
response | string |
Respuesta generada por LeMUR. |
|
Identificador de solicitud de LeMUR
|
request_id | uuid |
Identificador de la solicitud leMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
Número de tokens de entrada usados por el modelo |
|
Tokens de salida
|
usage.output_tokens | integer |
Número de tokens de salida generados por el modelo |
LemurResponse
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Respuesta
|
response | string |
Respuesta generada por LeMUR. |
|
Identificador de solicitud de LeMUR
|
request_id | uuid |
Identificador de la solicitud leMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
Número de tokens de entrada usados por el modelo |
|
Tokens de salida
|
usage.output_tokens | integer |
Número de tokens de salida generados por el modelo |
cuerda / cadena
Este es el tipo de datos básico "string".