AssemblyAI (versão prévia)

Transcreva e extraia dados do áudio usando a IA de Fala do AssemblyAI.

Esse conector está disponível nos seguintes produtos e regiões:

Service	Class	Regions
Copilot Studio	Premium	Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)
Aplicativos Lógicos	Standard	Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: – Regiões do Azure Governamental - Regiões do Azure China - Departamento de Defesa dos EUA (DoD)
Power Apps	Premium	Todas as regiões do Power Apps , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)
Power Automate	Premium	Todas as regiões do Power Automate , exceto as seguintes: – Governo dos EUA (GCC) – Governo dos EUA (GCC High) - China Cloud operado pela 21Vianet - Departamento de Defesa dos EUA (DoD)

Contato
Nome	Support
URL	https://www.assemblyai.com/docs/
Email	support@assemblyai.com

Metadados do conector
Publicador	AssemblyAI
Site	https://www.assemblyai.com
Política de privacidade	https://www.assemblyai.com/legal/privacy-policy
Categorias	IA

Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre ele com LLMs.

Conversão de Fala em Texto , incluindo muitos recursos configuráveis, como diarização do locutor, ortografia personalizada, vocabulário personalizado etc.
Os Modelos de Inteligência de Áudio são modelos de IA adicionais disponíveis e configurados por meio da configuração de transcrição.
O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de criar sua própria infraestrutura RAG para transcrições muito grandes.

Pré-requisitos

Você precisará do seguinte para continuar:

Uma chave de API assemblyAI (obtenha uma gratuitamente)

Como obter credenciais

Você pode obter uma chave de API assemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.

Introdução ao conector

Siga estas etapas para transcrever áudio usando o conector AssemblyAI.

Carregar um arquivo

Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o arquivo de áudio já estiver acessível por meio de uma URL, você poderá usar a URL existente.

Caso contrário, você pode usar a ação Upload a File para carregar um arquivo no AssemblyAI. Você receberá de volta uma URL do arquivo que só pode ser usada para transcrever usando sua chave de API. Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.

Transcrever áudio

Para transcrever o áudio, configure o parâmetro usando a Audio URL URL do arquivo de áudio. Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .

O resultado da ação Transcribe Audio é uma transcrição na fila que começará a ser processada imediatamente. Para obter a transcrição concluída, você tem duas opções:

Manipular o webhook pronto para transcrição
Sondar o status da transcrição

Manipular o webhook pronto para transcrição

Se você não quiser manipular o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente o webhook seguindo a documentação do webhook do AssemblyAI.

Para lidar com o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:

Criar um aplicativo lógico separado ou fluxo do Power Automate
Configure When an HTTP request is received como o gatilho:
- Definir Who Can Trigger The Flow? como Anyone
- Definido Request Body JSON Schema como:
```
{
  "type": "object",
  "properties": {
    "transcript_id": {
      "type": "string"
    },
    "status": {
      "type": "string"
    }
  }
}
```
- Definir Method como POST
Adicione uma ação AssemblyAI Get Transcript , passando do transcript_id gatilho para o Transcript ID parâmetro.
Antes de fazer qualquer outra coisa, você deve verificar se é Statuscompleted ou error. Adicione uma Condition ação que verifica se a StatusGet Transcript saída é error:
- True No branch, adicione uma Terminate ação
  - Definir como StatusFailed
  - Definir como CodeTranscript Error
  - Passe a Error saída para Get Transcript o Message parâmetro.
- Você pode deixar a ramificação False vazia.
Agora você pode adicionar qualquer ação depois de saber que Condition o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da ação Get Transcript .
Salve seu Aplicativo Lógico ou Fluxo. O HTTP URL gatilho será gerado When an HTTP request is received . Copie e volte para seu HTTP URL Aplicativo Lógico ou Fluxo original.
Em seu Aplicativo Lógico ou Fluxo original, atualize a ação Transcribe Audio . Cole o HTTP URL que você copiou anteriormente no Webhook URL parâmetro e salve.

Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será tratada pelo seu outro Aplicativo Lógico ou Fluxo.

Como alternativa ao uso do webhook, você pode sondar o status da transcrição, conforme explicado na próxima seção.

Sondar o status da transcrição

Você pode sondar o status da transcrição usando as seguintes etapas:

Adicionar uma Initialize variable ação
- Definir Name como transcript_status
- Definir Type como String
- Armazene a Status saída da Transcribe Audio saída no Value parâmetro
Adicionar uma Do until ação
- Configure o Loop Until parâmetro com o seguinte código Fx:
```
or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
```
  Esse código verifica se a transcript_status variável é completed ou error.
- Configurar o Count parâmetro para 86400
- Configurar o Timeout parâmetro para PT24H
Dentro da ação Do until , adicione as seguintes ações:
- Adicionar uma Delay ação que aguarda um segundo
- Adicione uma Get Transcript ação e passe a IDTranscribe Audio saída para o Transcript ID parâmetro.
- Adicionar uma Set variable ação
  - Definir Name como transcript_status
  - Passar a StatusGet Transcript saída para o Value parâmetro
O Do until loop continuará até que a transcrição seja concluída ou ocorra um erro.
Adicione outra Get Transcript ação, como antes, mas adicione-a após o Do until loop para que sua saída fique disponível fora do escopo da ação Do until .

Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error. Adicione uma Condition ação que verifica se éerrortranscript_status:

True No branch, adicione uma Terminate ação
- Definir Status como Failed
- Definir Code como Transcript Error
- Passe a Error saída para Get Transcript o Message parâmetro.
Você pode deixar a ramificação False vazia.

Agora você pode adicionar qualquer ação depois de saber que Condition o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da ação Get Transcript .

Adicionar mais ações

Agora que você tem uma transcrição concluída, você pode usar muitas outras ações passando na ID transcrição, como

Get Sentences of Transcript
Get Paragraphs of Transcript
Get Subtitles of Transcript
Get Redacted Audio
Search Transcript for Words
Run a Task using LeMUR

Problemas e limitações conhecidos

Nenhum problema conhecido no momento. Não damos suporte a Streaming de FalaTo-Text (em tempo real), pois não é possível usar conectores personalizados.

Erros e soluções comuns

Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.

perguntas frequentes

Você pode encontrar perguntas frequentes em nossa documentação.

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:


Default	Parâmetros para criar conexão.	Todas as regiões	Não compartilhável

Padrão

Aplicável: todas as regiões

Parâmetros para criar conexão.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Chave de API assemblyAI	secureString	A Chave de API assemblyAI para autenticar a API assemblyAI.	Verdade

Limitações

Nome	Chamadas	Período de renovação
Chamadas à API por conexão	100	60 segundos

Ações

Carregar um arquivo de mídia	Carregue um arquivo de mídia nos servidores do AssemblyAI.
Excluir Transcrição	Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.
Executar uma tarefa usando o LeMUR	Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.
Limpar dados de solicitação do LeMUR	Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos.
Listar transcrições	Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.
Obter legendas para transcrição	Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas.
Obter parágrafos na transcrição	Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores.
Obter sentenças na transcrição	Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores.
Obter transcrição	Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído".
Obter áudio redigido	Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido.
Pesquisar palavras na transcrição	Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.
Recuperar resposta do LeMUR	Recupere uma resposta de LeMUR que foi gerada anteriormente.
Transcrever áudio	Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL.

Carregar um arquivo de mídia

ID da operação:: UploadFile

Carregue um arquivo de mídia nos servidores do AssemblyAI.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
Conteúdo do arquivo	file	True	binary	O arquivo a ser carregado.

Retornos

Corpo: UploadedFile

Excluir Transcrição

ID da operação:: DeleteTranscript

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Retornos

Um objeto de transcrição

Corpo: Transcript

Executar uma tarefa usando o LeMUR

ID da operação:: LemurTask

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
Rápido	prompt	True	string	Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você deseja passar para o modelo.
IDs de transcrição	transcript_ids		array of uuid	Uma lista de transcrições concluídas com texto. Até um máximo de 100 arquivos ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR.
Texto de entrada	input_text		string	Dados de transcrição formatados personalizados. O tamanho máximo é o limite de contexto do modelo selecionado, que usa como padrão 100000. Use transcript_ids ou input_text como entrada no LeMUR.
Contexto	context		string	Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre.
Modelo Final	final_model		string	O modelo usado para o prompt final após a compactação ser executada.
Tamanho máximo da saída	max_output_size		integer	Tamanho máximo de saída em tokens, até 4000
Temperatura	temperature		float	A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive.

Retornos

Corpo: LemurTaskResponse

Limpar dados de solicitação do LeMUR

ID da operação:: PurgeLemurRequestData

Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da solicitação do LeMUR	request_id	True	string	A ID da solicitação leMUR cujos dados você deseja excluir. Isso seria encontrado na resposta da solicitação original.

Retornos

Corpo: PurgeLemurRequestDataResponse

Listar transcrições

ID da operação:: ListTranscripts

Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Parâmetros

Nome	Chave	Tipo	Description
Limit	limit	integer	Quantidade máxima de transcrições a serem recuperadas
Situação	status	string	O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.
Data da criação	created_on	date	Somente obter transcrições criadas nesta data
Antes da ID	before_id	uuid	Obter transcrições que foram criadas antes dessa ID de transcrição
Após a ID	after_id	uuid	Obter transcrições que foram criadas após essa ID de transcrição
Somente limitado	throttled_only	boolean	Somente obter transcrições limitadas, substitui o filtro de status

Retornos

Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Corpo: TranscriptList

Obter legendas para transcrição

ID da operação:: GetSubtitles

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição
Formato de subtítulo	subtitle_format	True	string	Formato dos subtítulos
Número de caracteres por legenda	chars_per_caption		integer	O número máximo de caracteres por legenda

Retornos

response: string

Obter parágrafos na transcrição

ID da operação:: GetTranscriptParagraphs

Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Retornos

Corpo: ParagraphsResponse

Obter sentenças na transcrição

ID da operação:: GetTranscriptSentences

Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Retornos

Corpo: SentencesResponse

Obter transcrição

ID da operação:: GetTranscript

Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído".

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Retornos

Um objeto de transcrição

Corpo: Transcript

Obter áudio redigido

ID da operação:: GetRedactedAudio

Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição

Retornos

Corpo: RedactedAudioResponse

Pesquisar palavras na transcrição

ID da operação:: WordSearch

Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da transcrição	transcript_id	True	string	ID da transcrição
Palavras	words	True	array	Palavras-chave para pesquisar

Retornos

Corpo: WordSearchResponse

Recuperar resposta do LeMUR

ID da operação:: GetLemurResponse

Recupere uma resposta de LeMUR que foi gerada anteriormente.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID da solicitação do LeMUR	request_id	True	string	A ID da solicitação leMUR que você fez anteriormente. Isso seria encontrado na resposta da solicitação original.

Retornos

Corpo: LemurResponse

Transcrever áudio

ID da operação:: CreateTranscript

Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
URL de áudio	audio_url	True	string	A URL do arquivo de áudio ou vídeo a ser transcrito.
Código de idioma	language_code		string	O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'.
Detecção de Idioma	language_detection		boolean	Habilite a detecção automática de idioma, true ou false.
Modelo de Fala	speech_model		string	O modelo de fala a ser usado para a transcrição.
Pontuar	punctuate		boolean	Habilitar Pontuação Automática, pode ser verdadeiro ou falso
Formatar Texto	format_text		boolean	Habilitar Formatação de Texto, pode ser true ou false
Disfluencies	disfluencies		boolean	Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false
Canal Duplo	dual_channel		boolean	Habilite a transcrição de Canal Duplo, pode ser verdadeira ou falsa.
Webhook URL	webhook_url		string	A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado.
Nome do cabeçalho de autenticação do webhook	webhook_auth_header_name		string	O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha
Valor do cabeçalho de autenticação do webhook	webhook_auth_header_value		string	O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou com falha nas solicitações de webhook para segurança adicional
Frases-chave	auto_highlights		boolean	Habilitar frases-chave, verdadeiras ou falsas
Início de áudio a partir de	audio_start_from		integer	O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia
Extremidade de áudio em	audio_end_at		integer	O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia
Aumento do Word	word_boost		array of string	A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para
Nível de aumento do Word	boost_param		string	Quanto aumentar as palavras especificadas
Filtrar palavrões	filter_profanity		boolean	Filtrar palavrões do texto transcrito, pode ser verdadeiro ou falso
Redact PII	redact_pii		boolean	Redigir PII do texto transcrito usando o modelo de PII redact, pode ser true ou false
Redact PII Audio	redact_pii_audio		boolean	Gerar uma cópia do arquivo de mídia original com a PII falada "bipada" para fora, pode ser verdadeira ou falsa. Consulte a redação de PII para obter mais detalhes.
Redact PII Audio Quality	redact_pii_audio_quality		string	Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes.
Redigir políticas de PII	redact_pii_policies		array of string	A lista de políticas de Redação de PII a serem habilitadas. Consulte a redação de PII para obter mais detalhes.
Substituição de PII do Redact	redact_pii_sub		string	A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes.
Rótulos de alto-falante	speaker_labels		boolean	Habilitar a diarização do locutor, pode ser true ou false
Alto-falantes esperados	speakers_expected		integer	Informa ao modelo de rótulo do locutor quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes.
Moderação de conteúdo	content_safety		boolean	Habilitar a Moderação de Conteúdo, pode ser verdadeiro ou falso
Confiança de moderação de conteúdo	content_safety_confidence		integer	O limite de confiança para o modelo de Moderação de Conteúdo. Os valores devem estar entre 25 e 100.
Detecção de Tópico	iab_categories		boolean	Habilitar Detecção de Tópico, pode ser true ou false
De	from	True	array of string	Palavras ou frases a serem substituídas
Para	to	True	string	Word ou frase a ser substituída por
Análise de Sentimento	sentiment_analysis		boolean	Habilitar Análise de Sentimento, pode ser verdadeiro ou falso
Capítulos Automáticos	auto_chapters		boolean	Habilitar Capítulos Automáticos, pode ser verdadeiro ou falso
Detecção de entidade	entity_detection		boolean	Habilitar a Detecção de Entidade, pode ser true ou false
Limite de Fala	speech_threshold		float	Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.
Habilitar Resumo	summarization		boolean	Habilitar Resumo, pode ser verdadeiro ou falso
Modelo de resumo	summary_model		string	O modelo para resumir a transcrição
Tipo de resumo	summary_type		string	O tipo de resumo
Habilitar Tópicos Personalizados	custom_topics		boolean	Habilitar tópicos personalizados, verdadeiros ou falsos
Tópicos personalizados	topics		array of string	A lista de tópicos personalizados

Retornos

Um objeto de transcrição

Corpo: Transcript

Definições

RedactedAudioResponse

Nome	Caminho	Tipo	Description
Situação	status	string	O status do áudio redigido
URL de Áudio Redigido	redacted_audio_url	string	A URL do arquivo de áudio redigido

WordSearchResponse

Nome	Caminho	Tipo	Description
ID da transcrição	id	uuid	A ID da transcrição
Contagem total de correspondências	total_count	integer	A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes e a palavra 2 correspondeu 3 vezes, total_count será igual a 5.
Correspondências	matches	array of object	As correspondências da pesquisa
Texto	matches.text	string	A palavra correspondente
Contagem	matches.count	integer	A quantidade total de vezes que a palavra está na transcrição
Timestamps	matches.timestamps	array of array	Uma matriz de carimbos de data/hora
Timestamp	matches.timestamps	array of integer	Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos
Indexes	matches.indexes	array of integer	Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída

Transcrição

Um objeto de transcrição

Nome	Caminho	Tipo	Description
ID	id	uuid	O identificador exclusivo da transcrição
URL de áudio	audio_url	string	A URL da mídia que foi transcrita
Situação	status	string	O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.
Código de idioma	language_code	string	O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'.
Detecção de Idioma	language_detection	boolean	Se a detecção automática de idioma está habilitada, verdadeira ou falsa
Modelo de Fala	speech_model	string	O modelo de fala a ser usado para a transcrição.
Texto	text	string	A transcrição textual do arquivo de mídia
Palavras	words	array of object	Uma matriz de objetos de palavra temporal sequencial, um para cada palavra na transcrição. Consulte o reconhecimento de fala para obter mais informações.
Confiança	words.confidence	double
Start	words.start	integer
participante	words.end	integer
Texto	words.text	string
Altifalante	words.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo
Declarações	utterances	array of object	Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de enunciados turno a turno. Consulte a diarização do locutor para obter mais informações.
Confiança	utterances.confidence	double	A pontuação de confiança para a transcrição deste enunciado
Start	utterances.start	integer	A hora de início, em milissegundos, do enunciado no arquivo de áudio
participante	utterances.end	integer	A hora final, em milissegundos, do enunciado no arquivo de áudio
Texto	utterances.text	string	O texto para este enunciado
Palavras	utterances.words	array of object	As palavras no enunciado.
Confiança	utterances.words.confidence	double
Start	utterances.words.start	integer
participante	utterances.words.end	integer
Texto	utterances.words.text	string
Altifalante	utterances.words.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo
Altifalante	utterances.speaker	string	O orador deste enunciado, em que cada orador recebe uma letra maiúscula sequencial - por exemplo, "A" para o Orador A, "B" para o Orador B, etc.
Confiança	confidence	double	A pontuação de confiança para a transcrição, entre 0,0 (baixa confiança) e 1,0 (alta confiança)
Duração do Áudio	audio_duration	integer	A duração do arquivo de mídia deste objeto de transcrição, em segundos
Pontuar	punctuate	boolean	Se a Pontuação Automática está habilitada, verdadeira ou falsa
Formatar Texto	format_text	boolean	Se a Formatação de Texto está habilitada, verdadeira ou falsa
Disfluencies	disfluencies	boolean	Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false
Canal Duplo	dual_channel	boolean	Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa
Webhook URL	webhook_url	string	A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado.
Código de status HTTP do webhook	webhook_status_code	integer	O código de status que recebemos do servidor ao entregar a transcrição concluída ou com falha na solicitação de webhook, se uma URL de webhook foi fornecida
Autenticação de webhook habilitada	webhook_auth	boolean	Se os detalhes da autenticação do webhook foram fornecidos
Nome do cabeçalho de autenticação do webhook	webhook_auth_header_name	string	O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha
Aumento de Velocidade	speed_boost	boolean	Se o aumento de velocidade está habilitado
Frases-chave	auto_highlights	boolean	Se as frases-chave estão habilitadas, verdadeiras ou falsas
Situação	auto_highlights_result.status	string	Êxito ou indisponível no caso raro em que o modelo falhou
Results	auto_highlights_result.results	array of object	Uma matriz sequencial temporal de frases-chave
Contagem	auto_highlights_result.results.count	integer	O número total de vezes que a frase-chave aparece no arquivo de áudio
Classificação	auto_highlights_result.results.rank	float	A relevância total para o arquivo de áudio geral dessa frase-chave - um número maior significa mais relevante
Texto	auto_highlights_result.results.text	string	O texto em si da frase-chave
Timestamps	auto_highlights_result.results.timestamps	array of object	O carimbo de data/hora da frase-chave
Start	auto_highlights_result.results.timestamps.start	integer	A hora de início em milissegundos
participante	auto_highlights_result.results.timestamps.end	integer	A hora de término em milissegundos
Início de áudio a partir de	audio_start_from	integer	O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi iniciada
Extremidade de áudio em	audio_end_at	integer	O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi encerrada
Aumento do Word	word_boost	array of string	A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para
Impulsionar	boost_param	string	O valor do parâmetro de aumento de palavra
Filtrar palavrões	filter_profanity	boolean	Se a Filtragem de Palavrões está habilitada, verdadeira ou falsa
Redact PII	redact_pii	boolean	Se a Redação de PII está habilitada, verdadeira ou falsa
Redact PII Audio	redact_pii_audio	boolean	Se uma versão redigida do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte a redação de PII para obter mais informações.
Redact PII Audio Quality	redact_pii_audio_quality	string	Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes.
Redigir políticas de PII	redact_pii_policies	array of string	A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte a redação de PII para obter mais informações.
Substituição de PII do Redact	redact_pii_sub	string	A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes.
Rótulos de alto-falante	speaker_labels	boolean	Se a diarização do locutor está habilitada, pode ser verdadeira ou falsa
Alto-falantes esperados	speakers_expected	integer	Informe ao modelo de rótulo do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes.
Moderação de conteúdo	content_safety	boolean	Se a Moderação de Conteúdo está habilitada, pode ser verdadeira ou falsa
Situação	content_safety_labels.status	string	Êxito ou indisponível no caso raro em que o modelo falhou
Results	content_safety_labels.results	array of object
Texto	content_safety_labels.results.text	string	A transcrição da seção sinalizada pelo modelo de Moderação de Conteúdo
Rótulos	content_safety_labels.results.labels	array of object	Uma matriz de rótulos de segurança, um por tópico confidencial que foi detectado na seção
Etiqueta	content_safety_labels.results.labels.label	string	O rótulo do tópico confidencial
Confiança	content_safety_labels.results.labels.confidence	double	A pontuação de confiança para o tópico que está sendo discutido, de 0 a 1
Severity	content_safety_labels.results.labels.severity	double	Quão severamente o tópico é discutido na seção, de 0 a 1
Início do Índice de Frases	content_safety_labels.results.sentences_idx_start	integer	O índice de frase no qual a seção começa
Término do índice de frase	content_safety_labels.results.sentences_idx_end	integer	O índice de sentença no qual a seção termina
Start	content_safety_labels.results.timestamp.start	integer	A hora de início em milissegundos
participante	content_safety_labels.results.timestamp.end	integer	A hora de término em milissegundos
Resumo	content_safety_labels.summary	object	Um resumo dos resultados de confiança de Moderação de Conteúdo para todo o arquivo de áudio
Resumo da Pontuação de Severidade	content_safety_labels.severity_score_summary	object	Um resumo dos resultados da severidade de moderação de conteúdo para todo o arquivo de áudio
Detecção de Tópico	iab_categories	boolean	Se a Detecção de Tópicos está habilitada, pode ser verdadeira ou falsa
Situação	iab_categories_result.status	string	Êxito ou indisponível no caso raro em que o modelo falhou
Results	iab_categories_result.results	array of object	Uma matriz de resultados para o modelo de Detecção de Tópicos
Texto	iab_categories_result.results.text	string	O texto na transcrição na qual ocorre um tópico detectado
Rótulos	iab_categories_result.results.labels	array of object
Relevância	iab_categories_result.results.labels.relevance	double	Quão relevante é o tópico detectado de um tópico detectado
Etiqueta	iab_categories_result.results.labels.label	string	O rótulo taxonômico IAB para o rótulo do tópico detectado, em que > denota relação supertópica/subtópica
Start	iab_categories_result.results.timestamp.start	integer	A hora de início em milissegundos
participante	iab_categories_result.results.timestamp.end	integer	A hora de término em milissegundos
Resumo	iab_categories_result.summary	object	A relevância geral do tópico para todo o arquivo de áudio
Ortografias Personalizadas	custom_spelling	array of object	Personalizar como as palavras são escritas e formatadas usando valores de e para
De	custom_spelling.from	array of string	Palavras ou frases a serem substituídas
Para	custom_spelling.to	string	Word ou frase a ser substituída por
Capítulos automáticos habilitados	auto_chapters	boolean	Se os Capítulos Automáticos estão habilitados, podem ser verdadeiros ou falsos
Capítulos	chapters	array of object	Uma matriz de capítulos sequenciais temporais para o arquivo de áudio
Gist	chapters.gist	string	Um resumo ultra-curto (apenas algumas palavras) do conteúdo falado no capítulo
Manchete	chapters.headline	string	Um resumo de frase única do conteúdo falado durante o capítulo
Resumo	chapters.summary	string	Um resumo de um parágrafo do conteúdo falado durante o capítulo
Start	chapters.start	integer	A hora de início, em milissegundos, para o capítulo
participante	chapters.end	integer	A hora de início, em milissegundos, para o capítulo
Resumo Habilitado	summarization	boolean	Se o Resumo está habilitado, verdadeiro ou falso
Tipo de resumo	summary_type	string	O tipo de resumo gerado, se o Resumo estiver habilitado
Modelo de resumo	summary_model	string	O modelo de resumo usado para gerar o resumo, se o Resumo estiver habilitado
Resumo	summary	string	O resumo gerado do arquivo de mídia, se o Resumo estiver habilitado
Tópicos personalizados habilitados	custom_topics	boolean	Se os tópicos personalizados estão habilitados, verdadeiros ou falsos
Tópicos	topics	array of string	A lista de tópicos personalizados fornecidos se os tópicos personalizados estiverem habilitados
Análise de Sentimento	sentiment_analysis	boolean	Se a Análise de Sentimento está habilitada, pode ser verdadeira ou falsa
Resultados da Análise de Sentimento	sentiment_analysis_results	array of object	Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de Sentimento para obter mais informações.
Texto	sentiment_analysis_results.text	string	A transcrição da sentença
Start	sentiment_analysis_results.start	integer	A hora de início, em milissegundos, da frase
participante	sentiment_analysis_results.end	integer	A hora final, em milissegundos, da sentença
Sentimento	sentiment_analysis_results.sentiment		O sentimento detectado para a frase, um de POSITIVE, NEUTRAL, NEGATIVE
Confiança	sentiment_analysis_results.confidence	double	A pontuação de confiança para o sentimento detectado da frase, de 0 a 1
Altifalante	sentiment_analysis_results.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo
Detecção de entidade	entity_detection	boolean	Se a Detecção de Entidade está habilitada, pode ser verdadeira ou falsa
Entities	entities	array of object	Uma matriz de resultados para o modelo de Detecção de Entidade, se ele estiver habilitado. Consulte a detecção de entidade para obter mais informações.
Tipo de entidade	entities.entity_type	string	O tipo de entidade para a entidade detectada
Texto	entities.text	string	O texto da entidade detectada
Start	entities.start	integer	A hora de início, em milissegundos, em que a entidade detectada aparece no arquivo de áudio
participante	entities.end	integer	A hora de término, em milissegundos, para a entidade detectada no arquivo de áudio
Limite de Fala	speech_threshold	float	O padrão é nulo. Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.
Estrangulado	throttled	boolean	True enquanto uma solicitação é limitada e falsa quando uma solicitação não é mais limitada
Erro	error	string	Mensagem de erro de por que a transcrição falhou
Modelo de linguagem	language_model	string	O modelo de linguagem que foi usado para a transcrição
Modelo acústico	acoustic_model	string	O modelo acústico que foi usado para a transcrição

SentencesResponse

Nome	Caminho	Tipo	Description
ID da transcrição	id	uuid
Confiança	confidence	double
Duração do Áudio	audio_duration	number
Frases	sentences	array of object
Texto	sentences.text	string
Start	sentences.start	integer
participante	sentences.end	integer
Confiança	sentences.confidence	double
Palavras	sentences.words	array of object
Confiança	sentences.words.confidence	double
Start	sentences.words.start	integer
participante	sentences.words.end	integer
Texto	sentences.words.text	string
Altifalante	sentences.words.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo
Altifalante	sentences.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

ParagraphsResponse

Nome	Caminho	Tipo	Description
ID da transcrição	id	uuid
Confiança	confidence	double
Duração do Áudio	audio_duration	number
Parágrafos	paragraphs	array of object
Texto	paragraphs.text	string
Start	paragraphs.start	integer
participante	paragraphs.end	integer
Confiança	paragraphs.confidence	double
Palavras	paragraphs.words	array of object
Confiança	paragraphs.words.confidence	double
Start	paragraphs.words.start	integer
participante	paragraphs.words.end	integer
Texto	paragraphs.words.text	string
Altifalante	paragraphs.words.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo
Altifalante	paragraphs.speaker	string	O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

TranscriptList

Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Nome	Caminho	Tipo	Description
Limit	page_details.limit	integer	O número de resultados a que esta página está limitada
Contagem dos resultados	page_details.result_count	integer	O número real de resultados na página
URL atual	page_details.current_url	string	A URL usada para recuperar a página atual de transcrições
URL anterior	page_details.prev_url	string	A URL para a próxima página de transcrições. A URL anterior sempre aponta para uma página com transcrições mais antigas.
Próxima URL	page_details.next_url	string	A URL para a próxima página de transcrições. A próxima URL sempre aponta para uma página com transcrições mais recentes.
Transcripts	transcripts	array of object
ID	transcripts.id	uuid
URL do Recurso	transcripts.resource_url	string
Situação	transcripts.status	string	O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.
Criado	transcripts.created	string
Concluído	transcripts.completed	string
URL de áudio	transcripts.audio_url	string
Erro	transcripts.error	string	Mensagem de erro de por que a transcrição falhou

UploadedFile

Nome	Caminho	Tipo	Description
URL do arquivo carregado	upload_url	string	Uma URL que aponta para o arquivo de áudio, acessível somente pelos servidores do AssemblyAI

PurgeLemurRequestDataResponse

Nome	Caminho	Tipo	Description
ID da solicitação de limpeza	request_id	uuid	A ID da solicitação de exclusão da solicitação leMUR
ID de solicitação do LeMUR para limpar	request_id_to_purge	uuid	A ID da solicitação do LeMUR para limpar os dados para
Excluído(a)	deleted	boolean	Se os dados da solicitação foram excluídos

LemurTaskResponse

Nome	Caminho	Tipo	Description
Resposta	response	string	A resposta gerada pelo LeMUR.
ID da solicitação do LeMUR	request_id	uuid	A ID da solicitação do LeMUR
Tokens de entrada	usage.input_tokens	integer	O número de tokens de entrada usados pelo modelo
Tokens de saída	usage.output_tokens	integer	O número de tokens de saída gerados pelo modelo

LemurResponse

Nome	Caminho	Tipo	Description
Resposta	response	string	A resposta gerada pelo LeMUR.
ID da solicitação do LeMUR	request_id	uuid	A ID da solicitação do LeMUR
Tokens de entrada	usage.input_tokens	integer	O número de tokens de entrada usados pelo modelo
Tokens de saída	usage.output_tokens	integer	O número de tokens de saída gerados pelo modelo

cadeia

Esse é o tipo de dados básico 'string'.

Compartilhar via

AssemblyAI (versão prévia)

Pré-requisitos

Como obter credenciais

Introdução ao conector

Carregar um arquivo

Transcrever áudio

Manipular o webhook pronto para transcrição

Sondar o status da transcrição

Adicionar mais ações

Problemas e limitações conhecidos

Erros e soluções comuns

perguntas frequentes

Criando uma conexão

Padrão

Limitações

Ações

Carregar um arquivo de mídia

Parâmetros

Retornos

Excluir Transcrição

Parâmetros

Retornos

Executar uma tarefa usando o LeMUR

Parâmetros

Retornos

Limpar dados de solicitação do LeMUR

Parâmetros

Retornos

Listar transcrições

Parâmetros

Retornos

Obter legendas para transcrição

Parâmetros

Retornos

Obter parágrafos na transcrição

Parâmetros

Retornos

Obter sentenças na transcrição

Parâmetros

Retornos

Obter transcrição

Parâmetros

Retornos

Obter áudio redigido

Parâmetros

Retornos

Pesquisar palavras na transcrição

Parâmetros

Retornos

Recuperar resposta do LeMUR

Parâmetros

Retornos

Transcrever áudio

Parâmetros

Retornos

Definições

RedactedAudioResponse

WordSearchResponse

Transcrição

SentencesResponse

ParagraphsResponse

TranscriptList

UploadedFile

PurgeLemurRequestDataResponse

LemurTaskResponse

LemurResponse

cadeia