Compartilhar via


AssemblyAI (versão prévia)

Transcreva e extraia dados do áudio usando a IA de Fala do AssemblyAI.

Esse conector está disponível nos seguintes produtos e regiões:

Service Class Regions
Copilot Studio Premium Todas as regiões do Power Automate , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Aplicativos Lógicos Standard Todas as regiões dos Aplicativos Lógicos , exceto as seguintes:
     – Regiões do Azure Governamental
     - Regiões do Azure China
     - Departamento de Defesa dos EUA (DoD)
Power Apps Premium Todas as regiões do Power Apps , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Power Automate Premium Todas as regiões do Power Automate , exceto as seguintes:
     – Governo dos EUA (GCC)
     – Governo dos EUA (GCC High)
     - China Cloud operado pela 21Vianet
     - Departamento de Defesa dos EUA (DoD)
Contato
Nome Support
URL https://www.assemblyai.com/docs/
Email support@assemblyai.com
Metadados do conector
Publicador AssemblyAI
Site https://www.assemblyai.com
Política de privacidade https://www.assemblyai.com/legal/privacy-policy
Categorias IA

Com o AssemblyAI Connector, você pode usar os modelos do AssemblyAI para processar dados de áudio transcrevendo-os com modelos de reconhecimento de fala, analisando-os com modelos de inteligência de áudio e criando recursos generativos sobre ele com LLMs.

  • Conversão de Fala em Texto , incluindo muitos recursos configuráveis, como diarização do locutor, ortografia personalizada, vocabulário personalizado etc.
  • Os Modelos de Inteligência de Áudio são modelos de IA adicionais disponíveis e configurados por meio da configuração de transcrição.
  • O LeMUR permite que você aplique vários modelos LLM às suas transcrições sem a necessidade de criar sua própria infraestrutura RAG para transcrições muito grandes.

Pré-requisitos

Você precisará do seguinte para continuar:

Como obter credenciais

Você pode obter uma chave de API assemblyAI gratuitamente inscrevendo-se em uma conta e copiando a chave de API do painel.

Introdução ao conector

Siga estas etapas para transcrever áudio usando o conector AssemblyAI.

Carregar um arquivo

Para transcrever um arquivo de áudio usando AssemblyAI, o arquivo precisa estar acessível ao AssemblyAI. Se o arquivo de áudio já estiver acessível por meio de uma URL, você poderá usar a URL existente.

Caso contrário, você pode usar a ação Upload a File para carregar um arquivo no AssemblyAI. Você receberá de volta uma URL do arquivo que só pode ser usada para transcrever usando sua chave de API. Depois de transcrever o arquivo, o arquivo será removido dos servidores do AssemblyAI.

Transcrever áudio

Para transcrever o áudio, configure o parâmetro usando a Audio URL URL do arquivo de áudio. Em seguida, configure os parâmetros adicionais para habilitar mais recursos de Reconhecimento de Fala e modelos de Inteligência de Áudio .

O resultado da ação Transcribe Audio é uma transcrição na fila que começará a ser processada imediatamente. Para obter a transcrição concluída, você tem duas opções:

  1. Manipular o webhook pronto para transcrição
  2. Sondar o status da transcrição

Manipular o webhook pronto para transcrição

Se você não quiser manipular o webhook usando Aplicativos Lógicos ou Power Automate, configure o Webhook URL parâmetro em sua Transcribe Audio ação e implemente o webhook seguindo a documentação do webhook do AssemblyAI.

Para lidar com o webhook usando Aplicativos Lógicos ou Power Automate, siga estas etapas:

  1. Criar um aplicativo lógico separado ou fluxo do Power Automate

  2. Configure When an HTTP request is received como o gatilho:

    • Definir Who Can Trigger The Flow? como Anyone
    • Definido Request Body JSON Schema como:
      {
        "type": "object",
        "properties": {
          "transcript_id": {
            "type": "string"
          },
          "status": {
            "type": "string"
          }
        }
      }
      
    • Definir Method como POST
  3. Adicione uma ação AssemblyAI Get Transcript , passando do transcript_id gatilho para o Transcript ID parâmetro.

  4. Antes de fazer qualquer outra coisa, você deve verificar se é Statuscompleted ou error. Adicione uma Condition ação que verifica se a StatusGet Transcript saída é error:

    • True No branch, adicione uma Terminate ação
      • Definir como StatusFailed
      • Definir como CodeTranscript Error
      • Passe a Error saída para Get Transcript o Message parâmetro.
    • Você pode deixar a ramificação False vazia.

    Agora você pode adicionar qualquer ação depois de saber que Condition o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da ação Get Transcript .

  5. Salve seu Aplicativo Lógico ou Fluxo. O HTTP URL gatilho será gerado When an HTTP request is received . Copie e volte para seu HTTP URL Aplicativo Lógico ou Fluxo original.

  6. Em seu Aplicativo Lógico ou Fluxo original, atualize a ação Transcribe Audio . Cole o HTTP URL que você copiou anteriormente no Webhook URL parâmetro e salve.

Quando o status da transcrição se tornar completed ou error, o AssemblyAI enviará uma solicitação HTTP POST para a URL do webhook, que será tratada pelo seu outro Aplicativo Lógico ou Fluxo.

Como alternativa ao uso do webhook, você pode sondar o status da transcrição, conforme explicado na próxima seção.

Sondar o status da transcrição

Você pode sondar o status da transcrição usando as seguintes etapas:

  • Adicionar uma Initialize variable ação

    • Definir Name como transcript_status
    • Definir Type como String
    • Armazene a Status saída da Transcribe Audio saída no Value parâmetro
  • Adicionar uma Do until ação

    • Configure o Loop Until parâmetro com o seguinte código Fx:
      or(equals(variables('transcript_status'), 'completed'), equals(variables('transcript_status'), 'error'))
      
      Esse código verifica se a transcript_status variável é completed ou error.
    • Configurar o Count parâmetro para 86400
    • Configurar o Timeout parâmetro para PT24H

    Dentro da ação Do until , adicione as seguintes ações:

    • Adicionar uma Delay ação que aguarda um segundo
    • Adicione uma Get Transcript ação e passe a IDTranscribe Audio saída para o Transcript ID parâmetro.
    • Adicionar uma Set variable ação
      • Definir Name como transcript_status
      • Passar a StatusGet Transcript saída para o Value parâmetro

    O Do until loop continuará até que a transcrição seja concluída ou ocorra um erro.

  • Adicione outra Get Transcript ação, como antes, mas adicione-a após o Do until loop para que sua saída fique disponível fora do escopo da ação Do until .

Antes de fazer qualquer outra coisa, você deve verificar se a transcrição Status é completed ou error. Adicione uma Condition ação que verifica se éerrortranscript_status:

  • True No branch, adicione uma Terminate ação
    • Definir Status como Failed
    • Definir Code como Transcript Error
    • Passe a Error saída para Get Transcript o Message parâmetro.
  • Você pode deixar a ramificação False vazia.

Agora você pode adicionar qualquer ação depois de saber que Condition o status da transcrição é completed, e você pode recuperar qualquer uma das propriedades de saída da ação Get Transcript .

Adicionar mais ações

Agora que você tem uma transcrição concluída, você pode usar muitas outras ações passando na ID transcrição, como

  • Get Sentences of Transcript
  • Get Paragraphs of Transcript
  • Get Subtitles of Transcript
  • Get Redacted Audio
  • Search Transcript for Words
  • Run a Task using LeMUR

Problemas e limitações conhecidos

Nenhum problema conhecido no momento. Não damos suporte a Streaming de FalaTo-Text (em tempo real), pois não é possível usar conectores personalizados.

Erros e soluções comuns

Você pode encontrar mais informações sobre erros na documentação do AssemblyAI.

perguntas frequentes

Você pode encontrar perguntas frequentes em nossa documentação.

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:

Default Parâmetros para criar conexão. Todas as regiões Não compartilhável

Padrão

Aplicável: todas as regiões

Parâmetros para criar conexão.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Chave de API assemblyAI secureString A Chave de API assemblyAI para autenticar a API assemblyAI. Verdade

Limitações

Nome Chamadas Período de renovação
Chamadas à API por conexão 100 60 segundos

Ações

Carregar um arquivo de mídia

Carregue um arquivo de mídia nos servidores do AssemblyAI.

Excluir Transcrição

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Executar uma tarefa usando o LeMUR

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Limpar dados de solicitação do LeMUR

Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos.

Listar transcrições

Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Obter legendas para transcrição

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas.

Obter parágrafos na transcrição

Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores.

Obter sentenças na transcrição

Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores.

Obter transcrição

Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído".

Obter áudio redigido

Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido.

Pesquisar palavras na transcrição

Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Recuperar resposta do LeMUR

Recupere uma resposta de LeMUR que foi gerada anteriormente.

Transcrever áudio

Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL.

Carregar um arquivo de mídia

Carregue um arquivo de mídia nos servidores do AssemblyAI.

Parâmetros

Nome Chave Obrigatório Tipo Description
Conteúdo do arquivo
file True binary

O arquivo a ser carregado.

Retornos

Corpo
UploadedFile

Excluir Transcrição

Exclua a transcrição. A exclusão não exclui o recurso em si, mas remove os dados do recurso e os marca como excluídos.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Retornos

Um objeto de transcrição

Corpo
Transcript

Executar uma tarefa usando o LeMUR

Use o ponto de extremidade da tarefa LeMUR para inserir seu próprio prompt LLM.

Parâmetros

Nome Chave Obrigatório Tipo Description
Rápido
prompt True string

Seu texto para solicitar que o modelo produza uma saída desejada, incluindo qualquer contexto que você deseja passar para o modelo.

IDs de transcrição
transcript_ids array of uuid

Uma lista de transcrições concluídas com texto. Até um máximo de 100 arquivos ou 100 horas, o que for menor. Use transcript_ids ou input_text como entrada no LeMUR.

Texto de entrada
input_text string

Dados de transcrição formatados personalizados. O tamanho máximo é o limite de contexto do modelo selecionado, que usa como padrão 100000. Use transcript_ids ou input_text como entrada no LeMUR.

Contexto
context string

Contexto para fornecer o modelo. Isso pode ser uma cadeia de caracteres ou um valor JSON de forma livre.

Modelo Final
final_model string

O modelo usado para o prompt final após a compactação ser executada.

Tamanho máximo da saída
max_output_size integer

Tamanho máximo de saída em tokens, até 4000

Temperatura
temperature float

A temperatura a ser usada para o modelo. Valores mais altos resultam em respostas mais criativas, valores mais baixos são mais conservadores. Pode ser qualquer valor entre 0,0 e 1,0 inclusive.

Retornos

Limpar dados de solicitação do LeMUR

Exclua os dados de uma solicitação leMUR enviada anteriormente. Os dados de resposta LLM, bem como qualquer contexto fornecido na solicitação original, serão removidos.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da solicitação do LeMUR
request_id True string

A ID da solicitação leMUR cujos dados você deseja excluir. Isso seria encontrado na resposta da solicitação original.

Retornos

Listar transcrições

Recupere uma lista de transcrições que você criou. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Parâmetros

Nome Chave Obrigatório Tipo Description
Limit
limit integer

Quantidade máxima de transcrições a serem recuperadas

Situação
status string

O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.

Data da criação
created_on date

Somente obter transcrições criadas nesta data

Antes da ID
before_id uuid

Obter transcrições que foram criadas antes dessa ID de transcrição

Após a ID
after_id uuid

Obter transcrições que foram criadas após essa ID de transcrição

Somente limitado
throttled_only boolean

Somente obter transcrições limitadas, substitui o filtro de status

Retornos

Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Obter legendas para transcrição

Exporte sua transcrição no formato SRT ou VTT para usar com um player de vídeo para legendas e legendas fechadas.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Formato de subtítulo
subtitle_format True string

Formato dos subtítulos

Número de caracteres por legenda
chars_per_caption integer

O número máximo de caracteres por legenda

Retornos

response
string

Obter parágrafos na transcrição

Obter a transcrição dividida por parágrafos. A API tentará segmentar semanticamente sua transcrição em parágrafos para criar transcrições mais amigáveis para os leitores.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Retornos

Obter sentenças na transcrição

Obter a transcrição dividida por frases. A API tentará segmentar semanticamente a transcrição em sentenças para criar transcrições mais amigáveis para os leitores.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Retornos

Obter transcrição

Obtenha o recurso de transcrição. A transcrição está pronta quando o "status" é "concluído".

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Retornos

Um objeto de transcrição

Corpo
Transcript

Obter áudio redigido

Recupere o objeto de áudio redigido que contém o status e a URL para o áudio redigido.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Retornos

Pesquisar palavras na transcrição

Pesquise a transcrição em busca de palavras-chave. Você pode pesquisar palavras, números ou frases individuais contendo até cinco palavras ou números.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da transcrição
transcript_id True string

ID da transcrição

Palavras
words True array

Palavras-chave para pesquisar

Retornos

Recuperar resposta do LeMUR

Recupere uma resposta de LeMUR que foi gerada anteriormente.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID da solicitação do LeMUR
request_id True string

A ID da solicitação leMUR que você fez anteriormente. Isso seria encontrado na resposta da solicitação original.

Retornos

Transcrever áudio

Crie uma transcrição de um arquivo de mídia acessível por meio de uma URL.

Parâmetros

Nome Chave Obrigatório Tipo Description
URL de áudio
audio_url True string

A URL do arquivo de áudio ou vídeo a ser transcrito.

Código de idioma
language_code string

O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'.

Detecção de Idioma
language_detection boolean

Habilite a detecção automática de idioma, true ou false.

Modelo de Fala
speech_model string

O modelo de fala a ser usado para a transcrição.

Pontuar
punctuate boolean

Habilitar Pontuação Automática, pode ser verdadeiro ou falso

Formatar Texto
format_text boolean

Habilitar Formatação de Texto, pode ser true ou false

Disfluencies
disfluencies boolean

Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false

Canal Duplo
dual_channel boolean

Habilite a transcrição de Canal Duplo, pode ser verdadeira ou falsa.

Webhook URL
webhook_url string

A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado.

Nome do cabeçalho de autenticação do webhook
webhook_auth_header_name string

O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha

Valor do cabeçalho de autenticação do webhook
webhook_auth_header_value string

O valor do cabeçalho a ser enviado de volta com a transcrição concluída ou com falha nas solicitações de webhook para segurança adicional

Frases-chave
auto_highlights boolean

Habilitar frases-chave, verdadeiras ou falsas

Início de áudio a partir de
audio_start_from integer

O ponto no tempo, em milissegundos, para começar a transcrever em seu arquivo de mídia

Extremidade de áudio em
audio_end_at integer

O ponto no tempo, em milissegundos, para parar de transcrever em seu arquivo de mídia

Aumento do Word
word_boost array of string

A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para

Nível de aumento do Word
boost_param string

Quanto aumentar as palavras especificadas

Filtrar palavrões
filter_profanity boolean

Filtrar palavrões do texto transcrito, pode ser verdadeiro ou falso

Redact PII
redact_pii boolean

Redigir PII do texto transcrito usando o modelo de PII redact, pode ser true ou false

Redact PII Audio
redact_pii_audio boolean

Gerar uma cópia do arquivo de mídia original com a PII falada "bipada" para fora, pode ser verdadeira ou falsa. Consulte a redação de PII para obter mais detalhes.

Redact PII Audio Quality
redact_pii_audio_quality string

Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes.

Redigir políticas de PII
redact_pii_policies array of string

A lista de políticas de Redação de PII a serem habilitadas. Consulte a redação de PII para obter mais detalhes.

Substituição de PII do Redact
redact_pii_sub string

A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes.

Rótulos de alto-falante
speaker_labels boolean

Habilitar a diarização do locutor, pode ser true ou false

Alto-falantes esperados
speakers_expected integer

Informa ao modelo de rótulo do locutor quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes.

Moderação de conteúdo
content_safety boolean

Habilitar a Moderação de Conteúdo, pode ser verdadeiro ou falso

Confiança de moderação de conteúdo
content_safety_confidence integer

O limite de confiança para o modelo de Moderação de Conteúdo. Os valores devem estar entre 25 e 100.

Detecção de Tópico
iab_categories boolean

Habilitar Detecção de Tópico, pode ser true ou false

De
from True array of string

Palavras ou frases a serem substituídas

Para
to True string

Word ou frase a ser substituída por

Análise de Sentimento
sentiment_analysis boolean

Habilitar Análise de Sentimento, pode ser verdadeiro ou falso

Capítulos Automáticos
auto_chapters boolean

Habilitar Capítulos Automáticos, pode ser verdadeiro ou falso

Detecção de entidade
entity_detection boolean

Habilitar a Detecção de Entidade, pode ser true ou false

Limite de Fala
speech_threshold float

Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.

Habilitar Resumo
summarization boolean

Habilitar Resumo, pode ser verdadeiro ou falso

Modelo de resumo
summary_model string

O modelo para resumir a transcrição

Tipo de resumo
summary_type string

O tipo de resumo

Habilitar Tópicos Personalizados
custom_topics boolean

Habilitar tópicos personalizados, verdadeiros ou falsos

Tópicos personalizados
topics array of string

A lista de tópicos personalizados

Retornos

Um objeto de transcrição

Corpo
Transcript

Definições

RedactedAudioResponse

Nome Caminho Tipo Description
Situação
status string

O status do áudio redigido

URL de Áudio Redigido
redacted_audio_url string

A URL do arquivo de áudio redigido

WordSearchResponse

Nome Caminho Tipo Description
ID da transcrição
id uuid

A ID da transcrição

Contagem total de correspondências
total_count integer

A contagem total de todas as instâncias correspondentes. Por exemplo, a palavra 1 correspondeu 2 vezes e a palavra 2 correspondeu 3 vezes, total_count será igual a 5.

Correspondências
matches array of object

As correspondências da pesquisa

Texto
matches.text string

A palavra correspondente

Contagem
matches.count integer

A quantidade total de vezes que a palavra está na transcrição

Timestamps
matches.timestamps array of array

Uma matriz de carimbos de data/hora

Timestamp
matches.timestamps array of integer

Uma matriz de carimbos de data/hora estruturados como [start_time, end_time] em milissegundos

Indexes
matches.indexes array of integer

Uma matriz de todos os locais de índice para essa palavra dentro da matriz de palavras da transcrição concluída

Transcrição

Um objeto de transcrição

Nome Caminho Tipo Description
ID
id uuid

O identificador exclusivo da transcrição

URL de áudio
audio_url string

A URL da mídia que foi transcrita

Situação
status string

O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.

Código de idioma
language_code string

O idioma do arquivo de áudio. Os valores possíveis são encontrados em linguagens com suporte. O valor padrão é 'en_us'.

Detecção de Idioma
language_detection boolean

Se a detecção automática de idioma está habilitada, verdadeira ou falsa

Modelo de Fala
speech_model string

O modelo de fala a ser usado para a transcrição.

Texto
text string

A transcrição textual do arquivo de mídia

Palavras
words array of object

Uma matriz de objetos de palavra temporal sequencial, um para cada palavra na transcrição. Consulte o reconhecimento de fala para obter mais informações.

Confiança
words.confidence double
Start
words.start integer
participante
words.end integer
Texto
words.text string
Altifalante
words.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

Declarações
utterances array of object

Quando dual_channel ou speaker_labels estiver habilitado, uma lista de objetos de enunciados turno a turno. Consulte a diarização do locutor para obter mais informações.

Confiança
utterances.confidence double

A pontuação de confiança para a transcrição deste enunciado

Start
utterances.start integer

A hora de início, em milissegundos, do enunciado no arquivo de áudio

participante
utterances.end integer

A hora final, em milissegundos, do enunciado no arquivo de áudio

Texto
utterances.text string

O texto para este enunciado

Palavras
utterances.words array of object

As palavras no enunciado.

Confiança
utterances.words.confidence double
Start
utterances.words.start integer
participante
utterances.words.end integer
Texto
utterances.words.text string
Altifalante
utterances.words.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

Altifalante
utterances.speaker string

O orador deste enunciado, em que cada orador recebe uma letra maiúscula sequencial - por exemplo, "A" para o Orador A, "B" para o Orador B, etc.

Confiança
confidence double

A pontuação de confiança para a transcrição, entre 0,0 (baixa confiança) e 1,0 (alta confiança)

Duração do Áudio
audio_duration integer

A duração do arquivo de mídia deste objeto de transcrição, em segundos

Pontuar
punctuate boolean

Se a Pontuação Automática está habilitada, verdadeira ou falsa

Formatar Texto
format_text boolean

Se a Formatação de Texto está habilitada, verdadeira ou falsa

Disfluencies
disfluencies boolean

Transcreva palavras de preenchimento, como "um", em seu arquivo de mídia; pode ser true ou false

Canal Duplo
dual_channel boolean

Se a transcrição de canal duplo foi habilitada na solicitação de transcrição, verdadeira ou falsa

Webhook URL
webhook_url string

A URL para a qual enviamos solicitações de webhook. Enviamos dois tipos diferentes de solicitações de webhook. Uma solicitação quando uma transcrição é concluída ou falha e uma solicitação quando o áudio redigido está pronto se redact_pii_audio está habilitado.

Código de status HTTP do webhook
webhook_status_code integer

O código de status que recebemos do servidor ao entregar a transcrição concluída ou com falha na solicitação de webhook, se uma URL de webhook foi fornecida

Autenticação de webhook habilitada
webhook_auth boolean

Se os detalhes da autenticação do webhook foram fornecidos

Nome do cabeçalho de autenticação do webhook
webhook_auth_header_name string

O nome do cabeçalho a ser enviado com a transcrição concluída ou solicitações de webhook com falha

Aumento de Velocidade
speed_boost boolean

Se o aumento de velocidade está habilitado

Frases-chave
auto_highlights boolean

Se as frases-chave estão habilitadas, verdadeiras ou falsas

Situação
auto_highlights_result.status string

Êxito ou indisponível no caso raro em que o modelo falhou

Results
auto_highlights_result.results array of object

Uma matriz sequencial temporal de frases-chave

Contagem
auto_highlights_result.results.count integer

O número total de vezes que a frase-chave aparece no arquivo de áudio

Classificação
auto_highlights_result.results.rank float

A relevância total para o arquivo de áudio geral dessa frase-chave - um número maior significa mais relevante

Texto
auto_highlights_result.results.text string

O texto em si da frase-chave

Timestamps
auto_highlights_result.results.timestamps array of object

O carimbo de data/hora da frase-chave

Start
auto_highlights_result.results.timestamps.start integer

A hora de início em milissegundos

participante
auto_highlights_result.results.timestamps.end integer

A hora de término em milissegundos

Início de áudio a partir de
audio_start_from integer

O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi iniciada

Extremidade de áudio em
audio_end_at integer

O ponto no tempo, em milissegundos, no arquivo no qual a transcrição foi encerrada

Aumento do Word
word_boost array of string

A lista de vocabulário personalizado para aumentar a probabilidade de transcrição para

Impulsionar
boost_param string

O valor do parâmetro de aumento de palavra

Filtrar palavrões
filter_profanity boolean

Se a Filtragem de Palavrões está habilitada, verdadeira ou falsa

Redact PII
redact_pii boolean

Se a Redação de PII está habilitada, verdadeira ou falsa

Redact PII Audio
redact_pii_audio boolean

Se uma versão redigida do arquivo de áudio foi gerada, verdadeira ou falsa. Consulte a redação de PII para obter mais informações.

Redact PII Audio Quality
redact_pii_audio_quality string

Controla o tipo de arquivo do áudio criado por redact_pii_audio. Atualmente, há suporte para mp3 (padrão) e wav. Consulte a redação de PII para obter mais detalhes.

Redigir políticas de PII
redact_pii_policies array of string

A lista de políticas de Redação de PII que foram habilitadas, se a Redação de PII estiver habilitada. Consulte a redação de PII para obter mais informações.

Substituição de PII do Redact
redact_pii_sub string

A lógica de substituição para PII detectada pode ser "entity_name" ou "hash". Consulte a redação de PII para obter mais detalhes.

Rótulos de alto-falante
speaker_labels boolean

Se a diarização do locutor está habilitada, pode ser verdadeira ou falsa

Alto-falantes esperados
speakers_expected integer

Informe ao modelo de rótulo do alto-falante quantos alto-falantes ele deve tentar identificar, até 10. Consulte a diarização do locutor para obter mais detalhes.

Moderação de conteúdo
content_safety boolean

Se a Moderação de Conteúdo está habilitada, pode ser verdadeira ou falsa

Situação
content_safety_labels.status string

Êxito ou indisponível no caso raro em que o modelo falhou

Results
content_safety_labels.results array of object
Texto
content_safety_labels.results.text string

A transcrição da seção sinalizada pelo modelo de Moderação de Conteúdo

Rótulos
content_safety_labels.results.labels array of object

Uma matriz de rótulos de segurança, um por tópico confidencial que foi detectado na seção

Etiqueta
content_safety_labels.results.labels.label string

O rótulo do tópico confidencial

Confiança
content_safety_labels.results.labels.confidence double

A pontuação de confiança para o tópico que está sendo discutido, de 0 a 1

Severity
content_safety_labels.results.labels.severity double

Quão severamente o tópico é discutido na seção, de 0 a 1

Início do Índice de Frases
content_safety_labels.results.sentences_idx_start integer

O índice de frase no qual a seção começa

Término do índice de frase
content_safety_labels.results.sentences_idx_end integer

O índice de sentença no qual a seção termina

Start
content_safety_labels.results.timestamp.start integer

A hora de início em milissegundos

participante
content_safety_labels.results.timestamp.end integer

A hora de término em milissegundos

Resumo
content_safety_labels.summary object

Um resumo dos resultados de confiança de Moderação de Conteúdo para todo o arquivo de áudio

Resumo da Pontuação de Severidade
content_safety_labels.severity_score_summary object

Um resumo dos resultados da severidade de moderação de conteúdo para todo o arquivo de áudio

Detecção de Tópico
iab_categories boolean

Se a Detecção de Tópicos está habilitada, pode ser verdadeira ou falsa

Situação
iab_categories_result.status string

Êxito ou indisponível no caso raro em que o modelo falhou

Results
iab_categories_result.results array of object

Uma matriz de resultados para o modelo de Detecção de Tópicos

Texto
iab_categories_result.results.text string

O texto na transcrição na qual ocorre um tópico detectado

Rótulos
iab_categories_result.results.labels array of object
Relevância
iab_categories_result.results.labels.relevance double

Quão relevante é o tópico detectado de um tópico detectado

Etiqueta
iab_categories_result.results.labels.label string

O rótulo taxonômico IAB para o rótulo do tópico detectado, em que > denota relação supertópica/subtópica

Start
iab_categories_result.results.timestamp.start integer

A hora de início em milissegundos

participante
iab_categories_result.results.timestamp.end integer

A hora de término em milissegundos

Resumo
iab_categories_result.summary object

A relevância geral do tópico para todo o arquivo de áudio

Ortografias Personalizadas
custom_spelling array of object

Personalizar como as palavras são escritas e formatadas usando valores de e para

De
custom_spelling.from array of string

Palavras ou frases a serem substituídas

Para
custom_spelling.to string

Word ou frase a ser substituída por

Capítulos automáticos habilitados
auto_chapters boolean

Se os Capítulos Automáticos estão habilitados, podem ser verdadeiros ou falsos

Capítulos
chapters array of object

Uma matriz de capítulos sequenciais temporais para o arquivo de áudio

Gist
chapters.gist string

Um resumo ultra-curto (apenas algumas palavras) do conteúdo falado no capítulo

Manchete
chapters.headline string

Um resumo de frase única do conteúdo falado durante o capítulo

Resumo
chapters.summary string

Um resumo de um parágrafo do conteúdo falado durante o capítulo

Start
chapters.start integer

A hora de início, em milissegundos, para o capítulo

participante
chapters.end integer

A hora de início, em milissegundos, para o capítulo

Resumo Habilitado
summarization boolean

Se o Resumo está habilitado, verdadeiro ou falso

Tipo de resumo
summary_type string

O tipo de resumo gerado, se o Resumo estiver habilitado

Modelo de resumo
summary_model string

O modelo de resumo usado para gerar o resumo, se o Resumo estiver habilitado

Resumo
summary string

O resumo gerado do arquivo de mídia, se o Resumo estiver habilitado

Tópicos personalizados habilitados
custom_topics boolean

Se os tópicos personalizados estão habilitados, verdadeiros ou falsos

Tópicos
topics array of string

A lista de tópicos personalizados fornecidos se os tópicos personalizados estiverem habilitados

Análise de Sentimento
sentiment_analysis boolean

Se a Análise de Sentimento está habilitada, pode ser verdadeira ou falsa

Resultados da Análise de Sentimento
sentiment_analysis_results array of object

Uma matriz de resultados para o modelo de Análise de Sentimento, se ele estiver habilitado. Consulte Análise de Sentimento para obter mais informações.

Texto
sentiment_analysis_results.text string

A transcrição da sentença

Start
sentiment_analysis_results.start integer

A hora de início, em milissegundos, da frase

participante
sentiment_analysis_results.end integer

A hora final, em milissegundos, da sentença

Sentimento
sentiment_analysis_results.sentiment

O sentimento detectado para a frase, um de POSITIVE, NEUTRAL, NEGATIVE

Confiança
sentiment_analysis_results.confidence double

A pontuação de confiança para o sentimento detectado da frase, de 0 a 1

Altifalante
sentiment_analysis_results.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

Detecção de entidade
entity_detection boolean

Se a Detecção de Entidade está habilitada, pode ser verdadeira ou falsa

Entities
entities array of object

Uma matriz de resultados para o modelo de Detecção de Entidade, se ele estiver habilitado. Consulte a detecção de entidade para obter mais informações.

Tipo de entidade
entities.entity_type string

O tipo de entidade para a entidade detectada

Texto
entities.text string

O texto da entidade detectada

Start
entities.start integer

A hora de início, em milissegundos, em que a entidade detectada aparece no arquivo de áudio

participante
entities.end integer

A hora de término, em milissegundos, para a entidade detectada no arquivo de áudio

Limite de Fala
speech_threshold float

O padrão é nulo. Rejeite arquivos de áudio que contenham menos que essa fração de fala. Os valores válidos estão no intervalo [0, 1] inclusive.

Estrangulado
throttled boolean

True enquanto uma solicitação é limitada e falsa quando uma solicitação não é mais limitada

Erro
error string

Mensagem de erro de por que a transcrição falhou

Modelo de linguagem
language_model string

O modelo de linguagem que foi usado para a transcrição

Modelo acústico
acoustic_model string

O modelo acústico que foi usado para a transcrição

SentencesResponse

Nome Caminho Tipo Description
ID da transcrição
id uuid
Confiança
confidence double
Duração do Áudio
audio_duration number
Frases
sentences array of object
Texto
sentences.text string
Start
sentences.start integer
participante
sentences.end integer
Confiança
sentences.confidence double
Palavras
sentences.words array of object
Confiança
sentences.words.confidence double
Start
sentences.words.start integer
participante
sentences.words.end integer
Texto
sentences.words.text string
Altifalante
sentences.words.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

Altifalante
sentences.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

ParagraphsResponse

Nome Caminho Tipo Description
ID da transcrição
id uuid
Confiança
confidence double
Duração do Áudio
audio_duration number
Parágrafos
paragraphs array of object
Texto
paragraphs.text string
Start
paragraphs.start integer
participante
paragraphs.end integer
Confiança
paragraphs.confidence double
Palavras
paragraphs.words array of object
Confiança
paragraphs.words.confidence double
Start
paragraphs.words.start integer
participante
paragraphs.words.end integer
Texto
paragraphs.words.text string
Altifalante
paragraphs.words.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

Altifalante
paragraphs.speaker string

O orador da frase se a Diarização do Locutor estiver habilitada, caso contrário, nulo

TranscriptList

Uma lista de transcrições. As transcrições são classificadas das mais recentes para as mais antigas. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Nome Caminho Tipo Description
Limit
page_details.limit integer

O número de resultados a que esta página está limitada

Contagem dos resultados
page_details.result_count integer

O número real de resultados na página

URL atual
page_details.current_url string

A URL usada para recuperar a página atual de transcrições

URL anterior
page_details.prev_url string

A URL para a próxima página de transcrições. A URL anterior sempre aponta para uma página com transcrições mais antigas.

Próxima URL
page_details.next_url string

A URL para a próxima página de transcrições. A próxima URL sempre aponta para uma página com transcrições mais recentes.

Transcripts
transcripts array of object
ID
transcripts.id uuid
URL do Recurso
transcripts.resource_url string
Situação
transcripts.status string

O status da transcrição. Os valores possíveis são enfileirados, processando, concluídos ou com erro.

Criado
transcripts.created string
Concluído
transcripts.completed string
URL de áudio
transcripts.audio_url string
Erro
transcripts.error string

Mensagem de erro de por que a transcrição falhou

UploadedFile

Nome Caminho Tipo Description
URL do arquivo carregado
upload_url string

Uma URL que aponta para o arquivo de áudio, acessível somente pelos servidores do AssemblyAI

PurgeLemurRequestDataResponse

Nome Caminho Tipo Description
ID da solicitação de limpeza
request_id uuid

A ID da solicitação de exclusão da solicitação leMUR

ID de solicitação do LeMUR para limpar
request_id_to_purge uuid

A ID da solicitação do LeMUR para limpar os dados para

Excluído(a)
deleted boolean

Se os dados da solicitação foram excluídos

LemurTaskResponse

Nome Caminho Tipo Description
Resposta
response string

A resposta gerada pelo LeMUR.

ID da solicitação do LeMUR
request_id uuid

A ID da solicitação do LeMUR

Tokens de entrada
usage.input_tokens integer

O número de tokens de entrada usados pelo modelo

Tokens de saída
usage.output_tokens integer

O número de tokens de saída gerados pelo modelo

LemurResponse

Nome Caminho Tipo Description
Resposta
response string

A resposta gerada pelo LeMUR.

ID da solicitação do LeMUR
request_id uuid

A ID da solicitação do LeMUR

Tokens de entrada
usage.input_tokens integer

O número de tokens de entrada usados pelo modelo

Tokens de saída
usage.output_tokens integer

O número de tokens de saída gerados pelo modelo

cadeia

Esse é o tipo de dados básico 'string'.