AssemblyAI (versão prévia)
Transcreva e extraia dados do áudio usando a IA de Fala do AssemblyAI.
Esse conector está disponível nos seguintes produtos e regiões:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Aplicativos Lógicos | Standard | Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Regiões do Azure Governamental - Regiões do Azure China - Departamento de Defesa dos EUA (DoD) |
| Power Apps | Premium | Todas as regiões do Power Apps , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Power Automate | Premium | Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD) |
| Contato | |
|---|---|
| Nome | Support |
| URL | https://www.assemblyai.com/docs/ |
| support@assemblyai.com |
| Metadados do conector | |
|---|---|
| Publicador | AssemblyAI |
| Site | https://www.assemblyai.com |
| Política de privacidade | https://www.assemblyai.com/legal/privacy-policy |
| Categorias | IA |
Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre ele com LLMs.
- Conversão de Fala em Texto , incluindo muitos recursos configuráveis, como diarização do locutor, ortografia personalizada, vocabulário personalizado etc.
- Os Modelos de Inteligência de Áudio são modelos de IA adicionais disponíveis e configurados por meio da configuração de transcrição.
- O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de criar sua própria infraestrutura RAG para transcrições muito grandes.
Pré-requisitos
Você precisará do seguinte para continuar:
- Uma chave de API assemblyAI (obtenha uma gratuitamente)
Como obter credenciais
Você pode obter uma chave de API assemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.
Introdução ao conector
Siga estas etapas para transcrever áudio usando o conector AssemblyAI.
Carregar um arquivo
Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o arquivo de áudio já estiver acessível por meio de uma URL, você poderá usar a URL existente.
Caso contrário, você pode usar a ação Upload a File para carregar um arquivo no AssemblyAI.
Você receberá de volta uma URL do arquivo que só pode ser usada para transcrever usando sua chave de API.
Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.
Transcrever áudio
Para transcrever o áudio, configure o parâmetro usando a Audio URL URL do arquivo de áudio.
Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .
O resultado da ação Transcribe Audio é uma transcrição na fila que começará a ser processada imediatamente. Para obter a transcrição concluída, você tem duas opções:
Manipular o webhook pronto para transcrição
Se você não quiser manipular o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente o webhook seguindo a documentação do webhook do AssemblyAI.
Para lidar com o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:
Criar um aplicativo lógico separado ou fluxo do Power Automate
Configure
When an HTTP request is receivedcomo o gatilho:- Definir
Who Can Trigger The Flow?comoAnyone - Definido
Request Body JSON Schemacomo:{ "type": "object", "properties": { "transcript_id": { "type": "string" }, "status": { "type": "string" } } } - Definir
MethodcomoPOST
- Definir
Adicione uma ação AssemblyAI
Get Transcript, passando dotranscript_idgatilho para oTranscript IDparâmetro.Antes de fazer qualquer outra coisa, você deve verificar se é
Statuscompletedouerror. Adicione umaConditionação que verifica se aStatusGet Transcriptsaída éerror:-
TrueNo branch, adicione umaTerminateação- Definir como
StatusFailed - Definir como
CodeTranscript Error - Passe a
Errorsaída paraGet TranscriptoMessageparâmetro.
- Definir como
- Você pode deixar a ramificação
Falsevazia.
Agora você pode adicionar qualquer ação depois de saber que
Conditiono status da transcrição écompleted, e você pode recuperar qualquer uma das propriedades de saída da açãoGet Transcript.-
Salve seu Aplicativo Lógico ou Fluxo. O
HTTP URLgatilho será geradoWhen an HTTP request is received. Copie e volte para seuHTTP URLAplicativo Lógico ou Fluxo original.Em seu Aplicativo Lógico ou Fluxo original, atualize a ação
Transcribe Audio. Cole oHTTP URLque você copiou anteriormente noWebhook URLparâmetro e salve.
Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será tratada pelo seu outro Aplicativo Lógico ou Fluxo.
Como alternativa ao uso do webhook, você pode sondar o status da transcrição, conforme explicado na próxima seção.
Sondar o status da transcrição
Você pode sondar o status da transcrição usando as seguintes etapas:
Adicionar uma
Initialize variableação- Definir
Namecomotranscript_status - Definir
TypecomoString - Armazene a
Statussaída daTranscribe Audiosaída noValueparâmetro
- Definir
Adicionar uma
Do untilação- Configure o
Loop Untilparâmetro com o seguinte código Fx:
Esse código verifica se aor(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))transcript_statusvariável écompletedouerror. - Configurar o
Countparâmetro para86400 - Configurar o
Timeoutparâmetro paraPT24H
Dentro da ação
Do until, adicione as seguintes ações:- Adicionar uma
Delayação que aguarda um segundo - Adicione uma
Get Transcriptação e passe aIDTranscribe Audiosaída para oTranscript IDparâmetro. - Adicionar uma
Set variableação- Definir
Namecomotranscript_status - Passar a
StatusGet Transcriptsaída para oValueparâmetro
- Definir
O
Do untilloop continuará até que a transcrição seja concluída ou ocorra um erro.- Configure o
Adicione outra
Get Transcriptação, como antes, mas adicione-a após oDo untilloop para que sua saída fique disponível fora do escopo da açãoDo until.
Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error.
Adicione uma Condition ação que verifica se éerrortranscript_status:
-
TrueNo branch, adicione umaTerminateação- Definir
StatuscomoFailed - Definir
CodecomoTranscript Error - Passe a
Errorsaída paraGet TranscriptoMessageparâmetro.
- Definir
- Você pode deixar a ramificação
Falsevazia.
Agora você pode adicionar qualquer ação depois de saber que Condition o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da ação Get Transcript .
Adicionar mais ações
Agora que você tem uma transcrição concluída, você pode usar muitas outras ações passando na ID transcrição, como
Get Sentences of TranscriptGet Paragraphs of TranscriptGet Subtitles of TranscriptGet Redacted AudioSearch Transcript for WordsRun a Task using LeMUR
Problemas e limitações conhecidos
Nenhum problema conhecido no momento. Não damos suporte a Streaming de FalaTo-Text (em tempo real), pois não é possível usar conectores personalizados.
Erros e soluções comuns
Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.
perguntas frequentes
Você pode encontrar perguntas frequentes em nossa documentação.
Criando uma conexão
O conector dá suporte aos seguintes tipos de autenticação:
| Default | Parâmetros para criar conexão. | Todas as regiões | Não compartilhável |
Padrão
Aplicável: todas as regiões
Parâmetros para criar conexão.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave de API assemblyAI | secureString | A Chave de API assemblyAI para autenticar a API assemblyAI. | Verdade |
Limitações
| Nome | Chamadas | Período de renovação |
|---|---|---|
| Chamadas à API por conexão | 100 | 60 segundos |
Ações
| Carregar um arquivo de mídia |
Carregue um arquivo de mídia nos servidores do AssemblyAI. |
| Excluir Transcrição |
Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos. |
| Executar uma tarefa usando o LeMUR |
Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM. |
| Limpar dados de solicitação do LeMUR |
Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos. |
| Listar transcrições |
Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas. |
| Obter legendas para transcrição |
Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas. |
| Obter parágrafos na transcrição |
Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores. |
| Obter sentenças na transcrição |
Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores. |
| Obter transcrição |
Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído". |
| Obter áudio redigido |
Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido. |
| Pesquisar palavras na transcrição |
Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números. |
| Recuperar resposta do LeMUR |
Recupere uma resposta de LeMUR que foi gerada anteriormente. |
| Transcrever áudio |
Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL. |
Carregar um arquivo de mídia
Carregue um arquivo de mídia nos servidores do AssemblyAI.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Conteúdo do arquivo
|
file | True | binary |
O arquivo a ser carregado. |
Retornos
- Corpo
- UploadedFile
Excluir Transcrição
Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Retornos
Um objeto de transcrição
- Corpo
- Transcript
Executar uma tarefa usando o LeMUR
Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Rápido
|
prompt | True | string |
Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você deseja passar para o modelo. |
|
IDs de transcrição
|
transcript_ids | array of uuid |
Uma lista de transcrições concluídas com texto. Até um máximo de 100 arquivos ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR. |
|
|
Texto de entrada
|
input_text | string |
Dados de transcrição formatados personalizados. O tamanho máximo é o limite de contexto do modelo selecionado, que usa como padrão 100000. Use transcript_ids ou input_text como entrada no LeMUR. |
|
|
Contexto
|
context | string |
Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre. |
|
|
Modelo Final
|
final_model | string |
O modelo usado para o prompt final após a compactação ser executada. |
|
|
Tamanho máximo da saída
|
max_output_size | integer |
Tamanho máximo de saída em tokens, até 4000 |
|
|
Temperatura
|
temperature | float |
A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive. |
Retornos
- Corpo
- LemurTaskResponse
Limpar dados de solicitação do LeMUR
Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da solicitação do LeMUR
|
request_id | True | string |
A ID da solicitação leMUR cujos dados você deseja excluir. Isso seria encontrado na resposta da solicitação original. |
Retornos
Listar transcrições
Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Limit
|
limit | integer |
Quantidade máxima de transcrições a serem recuperadas |
|
|
Situação
|
status | string |
O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro. |
|
|
Data da criação
|
created_on | date |
Somente obter transcrições criadas nesta data |
|
|
Antes da ID
|
before_id | uuid |
Obter transcrições que foram criadas antes dessa ID de transcrição |
|
|
Após a ID
|
after_id | uuid |
Obter transcrições que foram criadas após essa ID de transcrição |
|
|
Somente limitado
|
throttled_only | boolean |
Somente obter transcrições limitadas, substitui o filtro de status |
Retornos
Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.
- Corpo
- TranscriptList
Obter legendas para transcrição
Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
|
Formato de subtítulo
|
subtitle_format | True | string |
Formato dos subtítulos |
|
Número de caracteres por legenda
|
chars_per_caption | integer |
O número máximo de caracteres por legenda |
Retornos
- response
- string
Obter parágrafos na transcrição
Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Retornos
- Corpo
- ParagraphsResponse
Obter sentenças na transcrição
Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Retornos
- Corpo
- SentencesResponse
Obter transcrição
Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído".
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Retornos
Um objeto de transcrição
- Corpo
- Transcript
Obter áudio redigido
Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
Retornos
- Corpo
- RedactedAudioResponse
Pesquisar palavras na transcrição
Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da transcrição
|
transcript_id | True | string |
ID da transcrição |
|
Palavras
|
words | True | array |
Palavras-chave para pesquisar |
Retornos
- Corpo
- WordSearchResponse
Recuperar resposta do LeMUR
Recupere uma resposta de LeMUR que foi gerada anteriormente.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID da solicitação do LeMUR
|
request_id | True | string |
A ID da solicitação leMUR que você fez anteriormente. Isso seria encontrado na resposta da solicitação original. |
Retornos
- Corpo
- LemurResponse
Transcrever áudio
Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
URL de áudio
|
audio_url | True | string |
A URL do arquivo de áudio ou vídeo a ser transcrito. |
|
Código de idioma
|
language_code | string |
O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'. |
|
|
Detecção de Idioma
|
language_detection | boolean |
Habilite a detecção automática de idioma, true ou false. |
|
|
Modelo de Fala
|
speech_model | string |
O modelo de fala a ser usado para a transcrição. |
|
|
Pontuar
|
punctuate | boolean |
Habilitar Pontuação Automática, pode ser verdadeiro ou falso |
|
|
Formatar Texto
|
format_text | boolean |
Habilitar Formatação de Texto, pode ser true ou false |
|
|
Disfluencies
|
disfluencies | boolean |
Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false |
|
|
Canal Duplo
|
dual_channel | boolean |
Habilite a transcrição de Canal Duplo, pode ser verdadeira ou falsa. |
|
|
Webhook URL
|
webhook_url | string |
A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado. |
|
|
Nome do cabeçalho de autenticação do webhook
|
webhook_auth_header_name | string |
O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha |
|
|
Valor do cabeçalho de autenticação do webhook
|
webhook_auth_header_value | string |
O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou com falha nas solicitações de webhook para segurança adicional |
|
|
Frases-chave
|
auto_highlights | boolean |
Habilitar frases-chave, verdadeiras ou falsas |
|
|
Início de áudio a partir de
|
audio_start_from | integer |
O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia |
|
|
Extremidade de áudio em
|
audio_end_at | integer |
O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia |
|
|
Aumento do Word
|
word_boost | array of string |
A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para |
|
|
Nível de aumento do Word
|
boost_param | string |
Quanto aumentar as palavras especificadas |
|
|
Filtrar palavrões
|
filter_profanity | boolean |
Filtrar palavrões do texto transcrito, pode ser verdadeiro ou falso |
|
|
Redact PII
|
redact_pii | boolean |
Redigir PII do texto transcrito usando o modelo de PII redact, pode ser true ou false |
|
|
Redact PII Audio
|
redact_pii_audio | boolean |
Gerar uma cópia do arquivo de mídia original com a PII falada "bipada" para fora, pode ser verdadeira ou falsa. Consulte a redação de PII para obter mais detalhes. |
|
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes. |
|
|
Redigir políticas de PII
|
redact_pii_policies | array of string |
A lista de políticas de Redação de PII a serem habilitadas. Consulte a redação de PII para obter mais detalhes. |
|
|
Substituição de PII do Redact
|
redact_pii_sub | string |
A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes. |
|
|
Rótulos de alto-falante
|
speaker_labels | boolean |
Habilitar a diarização do locutor, pode ser true ou false |
|
|
Alto-falantes esperados
|
speakers_expected | integer |
Informa ao modelo de rótulo do locutor quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes. |
|
|
Moderação de conteúdo
|
content_safety | boolean |
Habilitar a Moderação de Conteúdo, pode ser verdadeiro ou falso |
|
|
Confiança de moderação de conteúdo
|
content_safety_confidence | integer |
O limite de confiança para o modelo de Moderação de Conteúdo. Os valores devem estar entre 25 e 100. |
|
|
Detecção de Tópico
|
iab_categories | boolean |
Habilitar Detecção de Tópico, pode ser true ou false |
|
|
De
|
from | True | array of string |
Palavras ou frases a serem substituídas |
|
Para
|
to | True | string |
Word ou frase a ser substituída por |
|
Análise de Sentimento
|
sentiment_analysis | boolean |
Habilitar Análise de Sentimento, pode ser verdadeiro ou falso |
|
|
Capítulos Automáticos
|
auto_chapters | boolean |
Habilitar Capítulos Automáticos, pode ser verdadeiro ou falso |
|
|
Detecção de entidade
|
entity_detection | boolean |
Habilitar a Detecção de Entidade, pode ser true ou false |
|
|
Limite de Fala
|
speech_threshold | float |
Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive. |
|
|
Habilitar Resumo
|
summarization | boolean |
Habilitar Resumo, pode ser verdadeiro ou falso |
|
|
Modelo de resumo
|
summary_model | string |
O modelo para resumir a transcrição |
|
|
Tipo de resumo
|
summary_type | string |
O tipo de resumo |
|
|
Habilitar Tópicos Personalizados
|
custom_topics | boolean |
Habilitar tópicos personalizados, verdadeiros ou falsos |
|
|
Tópicos personalizados
|
topics | array of string |
A lista de tópicos personalizados |
Retornos
Um objeto de transcrição
- Corpo
- Transcript
Definições
RedactedAudioResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Situação
|
status | string |
O status do áudio redigido |
|
URL de Áudio Redigido
|
redacted_audio_url | string |
A URL do arquivo de áudio redigido |
WordSearchResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid |
A ID da transcrição |
|
Contagem total de correspondências
|
total_count | integer |
A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes e a palavra 2 correspondeu 3 vezes, total_count será igual a 5. |
|
Correspondências
|
matches | array of object |
As correspondências da pesquisa |
|
Texto
|
matches.text | string |
A palavra correspondente |
|
Contagem
|
matches.count | integer |
A quantidade total de vezes que a palavra está na transcrição |
|
Timestamps
|
matches.timestamps | array of array |
Uma matriz de carimbos de data/hora |
|
Timestamp
|
matches.timestamps | array of integer |
Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos |
|
Indexes
|
matches.indexes | array of integer |
Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída |
Transcrição
Um objeto de transcrição
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
ID
|
id | uuid |
O identificador exclusivo da transcrição |
|
URL de áudio
|
audio_url | string |
A URL da mídia que foi transcrita |
|
Situação
|
status | string |
O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro. |
|
Código de idioma
|
language_code | string |
O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'. |
|
Detecção de Idioma
|
language_detection | boolean |
Se a detecção automática de idioma está habilitada, verdadeira ou falsa |
|
Modelo de Fala
|
speech_model | string |
O modelo de fala a ser usado para a transcrição. |
|
Texto
|
text | string |
A transcrição textual do arquivo de mídia |
|
Palavras
|
words | array of object |
Uma matriz de objetos de palavra temporal sequencial, um para cada palavra na transcrição. Consulte o reconhecimento de fala para obter mais informações. |
|
Confiança
|
words.confidence | double | |
|
Start
|
words.start | integer | |
|
participante
|
words.end | integer | |
|
Texto
|
words.text | string | |
|
Altifalante
|
words.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
|
Declarações
|
utterances | array of object |
Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de enunciados turno a turno. Consulte a diarização do locutor para obter mais informações. |
|
Confiança
|
utterances.confidence | double |
A pontuação de confiança para a transcrição deste enunciado |
|
Start
|
utterances.start | integer |
A hora de início, em milissegundos, do enunciado no arquivo de áudio |
|
participante
|
utterances.end | integer |
A hora final, em milissegundos, do enunciado no arquivo de áudio |
|
Texto
|
utterances.text | string |
O texto para este enunciado |
|
Palavras
|
utterances.words | array of object |
As palavras no enunciado. |
|
Confiança
|
utterances.words.confidence | double | |
|
Start
|
utterances.words.start | integer | |
|
participante
|
utterances.words.end | integer | |
|
Texto
|
utterances.words.text | string | |
|
Altifalante
|
utterances.words.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
|
Altifalante
|
utterances.speaker | string |
O orador deste enunciado, em que cada orador recebe uma letra maiúscula sequencial - por exemplo, "A" para o Orador A, "B" para o Orador B, etc. |
|
Confiança
|
confidence | double |
A pontuação de confiança para a transcrição, entre 0,0 (baixa confiança) e 1,0 (alta confiança) |
|
Duração do Áudio
|
audio_duration | integer |
A duração do arquivo de mídia deste objeto de transcrição, em segundos |
|
Pontuar
|
punctuate | boolean |
Se a Pontuação Automática está habilitada, verdadeira ou falsa |
|
Formatar Texto
|
format_text | boolean |
Se a Formatação de Texto está habilitada, verdadeira ou falsa |
|
Disfluencies
|
disfluencies | boolean |
Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false |
|
Canal Duplo
|
dual_channel | boolean |
Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa |
|
Webhook URL
|
webhook_url | string |
A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado. |
|
Código de status HTTP do webhook
|
webhook_status_code | integer |
O código de status que recebemos do servidor ao entregar a transcrição concluída ou com falha na solicitação de webhook, se uma URL de webhook foi fornecida |
|
Autenticação de webhook habilitada
|
webhook_auth | boolean |
Se os detalhes da autenticação do webhook foram fornecidos |
|
Nome do cabeçalho de autenticação do webhook
|
webhook_auth_header_name | string |
O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha |
|
Aumento de Velocidade
|
speed_boost | boolean |
Se o aumento de velocidade está habilitado |
|
Frases-chave
|
auto_highlights | boolean |
Se as frases-chave estão habilitadas, verdadeiras ou falsas |
|
Situação
|
auto_highlights_result.status | string |
Êxito ou indisponível no caso raro em que o modelo falhou |
|
Results
|
auto_highlights_result.results | array of object |
Uma matriz sequencial temporal de frases-chave |
|
Contagem
|
auto_highlights_result.results.count | integer |
O número total de vezes que a frase-chave aparece no arquivo de áudio |
|
Classificação
|
auto_highlights_result.results.rank | float |
A relevância total para o arquivo de áudio geral dessa frase-chave - um número maior significa mais relevante |
|
Texto
|
auto_highlights_result.results.text | string |
O texto em si da frase-chave |
|
Timestamps
|
auto_highlights_result.results.timestamps | array of object |
O carimbo de data/hora da frase-chave |
|
Start
|
auto_highlights_result.results.timestamps.start | integer |
A hora de início em milissegundos |
|
participante
|
auto_highlights_result.results.timestamps.end | integer |
A hora de término em milissegundos |
|
Início de áudio a partir de
|
audio_start_from | integer |
O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi iniciada |
|
Extremidade de áudio em
|
audio_end_at | integer |
O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi encerrada |
|
Aumento do Word
|
word_boost | array of string |
A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para |
|
Impulsionar
|
boost_param | string |
O valor do parâmetro de aumento de palavra |
|
Filtrar palavrões
|
filter_profanity | boolean |
Se a Filtragem de Palavrões está habilitada, verdadeira ou falsa |
|
Redact PII
|
redact_pii | boolean |
Se a Redação de PII está habilitada, verdadeira ou falsa |
|
Redact PII Audio
|
redact_pii_audio | boolean |
Se uma versão redigida do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte a redação de PII para obter mais informações. |
|
Redact PII Audio Quality
|
redact_pii_audio_quality | string |
Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes. |
|
Redigir políticas de PII
|
redact_pii_policies | array of string |
A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte a redação de PII para obter mais informações. |
|
Substituição de PII do Redact
|
redact_pii_sub | string |
A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes. |
|
Rótulos de alto-falante
|
speaker_labels | boolean |
Se a diarização do locutor está habilitada, pode ser verdadeira ou falsa |
|
Alto-falantes esperados
|
speakers_expected | integer |
Informe ao modelo de rótulo do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes. |
|
Moderação de conteúdo
|
content_safety | boolean |
Se a Moderação de Conteúdo está habilitada, pode ser verdadeira ou falsa |
|
Situação
|
content_safety_labels.status | string |
Êxito ou indisponível no caso raro em que o modelo falhou |
|
Results
|
content_safety_labels.results | array of object | |
|
Texto
|
content_safety_labels.results.text | string |
A transcrição da seção sinalizada pelo modelo de Moderação de Conteúdo |
|
Rótulos
|
content_safety_labels.results.labels | array of object |
Uma matriz de rótulos de segurança, um por tópico confidencial que foi detectado na seção |
|
Etiqueta
|
content_safety_labels.results.labels.label | string |
O rótulo do tópico confidencial |
|
Confiança
|
content_safety_labels.results.labels.confidence | double |
A pontuação de confiança para o tópico que está sendo discutido, de 0 a 1 |
|
Severity
|
content_safety_labels.results.labels.severity | double |
Quão severamente o tópico é discutido na seção, de 0 a 1 |
|
Início do Índice de Frases
|
content_safety_labels.results.sentences_idx_start | integer |
O índice de frase no qual a seção começa |
|
Término do índice de frase
|
content_safety_labels.results.sentences_idx_end | integer |
O índice de sentença no qual a seção termina |
|
Start
|
content_safety_labels.results.timestamp.start | integer |
A hora de início em milissegundos |
|
participante
|
content_safety_labels.results.timestamp.end | integer |
A hora de término em milissegundos |
|
Resumo
|
content_safety_labels.summary | object |
Um resumo dos resultados de confiança de Moderação de Conteúdo para todo o arquivo de áudio |
|
Resumo da Pontuação de Severidade
|
content_safety_labels.severity_score_summary | object |
Um resumo dos resultados da severidade de moderação de conteúdo para todo o arquivo de áudio |
|
Detecção de Tópico
|
iab_categories | boolean |
Se a Detecção de Tópicos está habilitada, pode ser verdadeira ou falsa |
|
Situação
|
iab_categories_result.status | string |
Êxito ou indisponível no caso raro em que o modelo falhou |
|
Results
|
iab_categories_result.results | array of object |
Uma matriz de resultados para o modelo de Detecção de Tópicos |
|
Texto
|
iab_categories_result.results.text | string |
O texto na transcrição na qual ocorre um tópico detectado |
|
Rótulos
|
iab_categories_result.results.labels | array of object | |
|
Relevância
|
iab_categories_result.results.labels.relevance | double |
Quão relevante é o tópico detectado de um tópico detectado |
|
Etiqueta
|
iab_categories_result.results.labels.label | string |
O rótulo taxonômico IAB para o rótulo do tópico detectado, em que > denota relação supertópica/subtópica |
|
Start
|
iab_categories_result.results.timestamp.start | integer |
A hora de início em milissegundos |
|
participante
|
iab_categories_result.results.timestamp.end | integer |
A hora de término em milissegundos |
|
Resumo
|
iab_categories_result.summary | object |
A relevância geral do tópico para todo o arquivo de áudio |
|
Ortografias Personalizadas
|
custom_spelling | array of object |
Personalizar como as palavras são escritas e formatadas usando valores de e para |
|
De
|
custom_spelling.from | array of string |
Palavras ou frases a serem substituídas |
|
Para
|
custom_spelling.to | string |
Word ou frase a ser substituída por |
|
Capítulos automáticos habilitados
|
auto_chapters | boolean |
Se os Capítulos Automáticos estão habilitados, podem ser verdadeiros ou falsos |
|
Capítulos
|
chapters | array of object |
Uma matriz de capítulos sequenciais temporais para o arquivo de áudio |
|
Gist
|
chapters.gist | string |
Um resumo ultra-curto (apenas algumas palavras) do conteúdo falado no capítulo |
|
Manchete
|
chapters.headline | string |
Um resumo de frase única do conteúdo falado durante o capítulo |
|
Resumo
|
chapters.summary | string |
Um resumo de um parágrafo do conteúdo falado durante o capítulo |
|
Start
|
chapters.start | integer |
A hora de início, em milissegundos, para o capítulo |
|
participante
|
chapters.end | integer |
A hora de início, em milissegundos, para o capítulo |
|
Resumo Habilitado
|
summarization | boolean |
Se o Resumo está habilitado, verdadeiro ou falso |
|
Tipo de resumo
|
summary_type | string |
O tipo de resumo gerado, se o Resumo estiver habilitado |
|
Modelo de resumo
|
summary_model | string |
O modelo de resumo usado para gerar o resumo, se o Resumo estiver habilitado |
|
Resumo
|
summary | string |
O resumo gerado do arquivo de mídia, se o Resumo estiver habilitado |
|
Tópicos personalizados habilitados
|
custom_topics | boolean |
Se os tópicos personalizados estão habilitados, verdadeiros ou falsos |
|
Tópicos
|
topics | array of string |
A lista de tópicos personalizados fornecidos se os tópicos personalizados estiverem habilitados |
|
Análise de Sentimento
|
sentiment_analysis | boolean |
Se a Análise de Sentimento está habilitada, pode ser verdadeira ou falsa |
|
Resultados da Análise de Sentimento
|
sentiment_analysis_results | array of object |
Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de Sentimento para obter mais informações. |
|
Texto
|
sentiment_analysis_results.text | string |
A transcrição da sentença |
|
Start
|
sentiment_analysis_results.start | integer |
A hora de início, em milissegundos, da frase |
|
participante
|
sentiment_analysis_results.end | integer |
A hora final, em milissegundos, da sentença |
|
Sentimento
|
sentiment_analysis_results.sentiment |
O sentimento detectado para a frase, um de POSITIVE, NEUTRAL, NEGATIVE |
|
|
Confiança
|
sentiment_analysis_results.confidence | double |
A pontuação de confiança para o sentimento detectado da frase, de 0 a 1 |
|
Altifalante
|
sentiment_analysis_results.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
|
Detecção de entidade
|
entity_detection | boolean |
Se a Detecção de Entidade está habilitada, pode ser verdadeira ou falsa |
|
Entities
|
entities | array of object |
Uma matriz de resultados para o modelo de Detecção de Entidade, se ele estiver habilitado. Consulte a detecção de entidade para obter mais informações. |
|
Tipo de entidade
|
entities.entity_type | string |
O tipo de entidade para a entidade detectada |
|
Texto
|
entities.text | string |
O texto da entidade detectada |
|
Start
|
entities.start | integer |
A hora de início, em milissegundos, em que a entidade detectada aparece no arquivo de áudio |
|
participante
|
entities.end | integer |
A hora de término, em milissegundos, para a entidade detectada no arquivo de áudio |
|
Limite de Fala
|
speech_threshold | float |
O padrão é nulo. Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive. |
|
Estrangulado
|
throttled | boolean |
True enquanto uma solicitação é limitada e falsa quando uma solicitação não é mais limitada |
|
Erro
|
error | string |
Mensagem de erro de por que a transcrição falhou |
|
Modelo de linguagem
|
language_model | string |
O modelo de linguagem que foi usado para a transcrição |
|
Modelo acústico
|
acoustic_model | string |
O modelo acústico que foi usado para a transcrição |
SentencesResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid | |
|
Confiança
|
confidence | double | |
|
Duração do Áudio
|
audio_duration | number | |
|
Frases
|
sentences | array of object | |
|
Texto
|
sentences.text | string | |
|
Start
|
sentences.start | integer | |
|
participante
|
sentences.end | integer | |
|
Confiança
|
sentences.confidence | double | |
|
Palavras
|
sentences.words | array of object | |
|
Confiança
|
sentences.words.confidence | double | |
|
Start
|
sentences.words.start | integer | |
|
participante
|
sentences.words.end | integer | |
|
Texto
|
sentences.words.text | string | |
|
Altifalante
|
sentences.words.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
|
Altifalante
|
sentences.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
ParagraphsResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da transcrição
|
id | uuid | |
|
Confiança
|
confidence | double | |
|
Duração do Áudio
|
audio_duration | number | |
|
Parágrafos
|
paragraphs | array of object | |
|
Texto
|
paragraphs.text | string | |
|
Start
|
paragraphs.start | integer | |
|
participante
|
paragraphs.end | integer | |
|
Confiança
|
paragraphs.confidence | double | |
|
Palavras
|
paragraphs.words | array of object | |
|
Confiança
|
paragraphs.words.confidence | double | |
|
Start
|
paragraphs.words.start | integer | |
|
participante
|
paragraphs.words.end | integer | |
|
Texto
|
paragraphs.words.text | string | |
|
Altifalante
|
paragraphs.words.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
|
Altifalante
|
paragraphs.speaker | string |
O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo |
TranscriptList
Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Limit
|
page_details.limit | integer |
O número de resultados a que esta página está limitada |
|
Contagem dos resultados
|
page_details.result_count | integer |
O número real de resultados na página |
|
URL atual
|
page_details.current_url | string |
A URL usada para recuperar a página atual de transcrições |
|
URL anterior
|
page_details.prev_url | string |
A URL para a próxima página de transcrições. A URL anterior sempre aponta para uma página com transcrições mais antigas. |
|
Próxima URL
|
page_details.next_url | string |
A URL para a próxima página de transcrições. A próxima URL sempre aponta para uma página com transcrições mais recentes. |
|
Transcripts
|
transcripts | array of object | |
|
ID
|
transcripts.id | uuid | |
|
URL do Recurso
|
transcripts.resource_url | string | |
|
Situação
|
transcripts.status | string |
O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro. |
|
Criado
|
transcripts.created | string | |
|
Concluído
|
transcripts.completed | string | |
|
URL de áudio
|
transcripts.audio_url | string | |
|
Erro
|
transcripts.error | string |
Mensagem de erro de por que a transcrição falhou |
UploadedFile
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
URL do arquivo carregado
|
upload_url | string |
Uma URL que aponta para o arquivo de áudio, acessível somente pelos servidores do AssemblyAI |
PurgeLemurRequestDataResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
ID da solicitação de limpeza
|
request_id | uuid |
A ID da solicitação de exclusão da solicitação leMUR |
|
ID de solicitação do LeMUR para limpar
|
request_id_to_purge | uuid |
A ID da solicitação do LeMUR para limpar os dados para |
|
Excluído(a)
|
deleted | boolean |
Se os dados da solicitação foram excluídos |
LemurTaskResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Resposta
|
response | string |
A resposta gerada pelo LeMUR. |
|
ID da solicitação do LeMUR
|
request_id | uuid |
A ID da solicitação do LeMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
O número de tokens de entrada usados pelo modelo |
|
Tokens de saída
|
usage.output_tokens | integer |
O número de tokens de saída gerados pelo modelo |
LemurResponse
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
Resposta
|
response | string |
A resposta gerada pelo LeMUR. |
|
ID da solicitação do LeMUR
|
request_id | uuid |
A ID da solicitação do LeMUR |
|
Tokens de entrada
|
usage.input_tokens | integer |
O número de tokens de entrada usados pelo modelo |
|
Tokens de saída
|
usage.output_tokens | integer |
O número de tokens de saída gerados pelo modelo |
cadeia
Esse é o tipo de dados básico 'string'.