Compartilhar via


Reconhecimento de Fala para Texto do Azure Batch

Transcreva áudio com precisão para texto em mais de 100 idiomas e variantes. Como parte do serviço de Fala de IA do Azure, a Transcrição em Lote permite transcrever uma grande quantidade de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.

Esse conector está disponível nos seguintes produtos e regiões:

Service Class Regions
Copilot Studio Standard Todas as regiões do Power Automate , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Aplicativos Lógicos Standard Todas as regiões dos Aplicativos Lógicos , exceto as seguintes:
     - Regiões do Azure China
Power Apps Standard Todas as regiões do Power Apps , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Power Automate Standard Todas as regiões do Power Automate , exceto as seguintes:
     - China Cloud operado pela 21Vianet
Contato
Nome Equipe do Power Platform do Serviço de Fala
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email speechpowerplatform@microsoft.com
Metadados do conector
Publicador Microsoft
Site https://docs.microsoft.com/azure/cognitive-services/speech-service/
Política de privacidade https://privacy.microsoft.com
Categorias IA; Site

A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece o processamento assíncrono de reconhecimento de fala em lote por conteúdo de áudio fornecido. Esse conector expõe essas funções como operações no Microsoft Power Automate e no Power Apps.

Pré-requisitos

Você precisará do seguinte para continuar:

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:

Chave de API ApiKey Todas as regiões Compartilhável
Microsoft Entra ID Integrado Use a ID do Microsoft Entra para acessar seu serviço de fala. Todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High) Não compartilhável
Microsoft Entra ID Integrada (Azure Government) Use a ID do Microsoft Entra para acessar seu serviço de fala. Governo do Azure e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High) Não compartilhável
Padrão [PRETERIDO] Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores. Todas as regiões Não compartilhável

Chave de API

ID de autenticação: keyBasedAuth

Aplicável: todas as regiões

ApiKey

Essa é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a visão geral dos Conectores para aplicativos de tela – Power Apps | Microsoft Docs

Nome Tipo Description Obrigatório
Chave de Conta secureString Chave do serviço de fala Verdade
Região cadeia Região do serviço de fala (exemplo: eastus) Verdade

Microsoft Entra ID Integrado

ID de autenticação: tokenBasedAuth

Aplicável: todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High)

Use a ID do Microsoft Entra para acessar seu serviço de fala.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Subdomínio Personalizado cadeia URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso) Verdade

Microsoft Entra ID Integrada (Azure Government)

ID de autenticação: tokenBasedAuth

Aplicável: Azure Governamental e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High)

Use a ID do Microsoft Entra para acessar seu serviço de fala.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Subdomínio Personalizado cadeia URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso) Verdade

Padrão [PRETERIDO]

Aplicável: todas as regiões

Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome Tipo Description Obrigatório
Chave de Conta secureString Chave de Conta de Conversão de Fala em Texto dos Serviços Cognitivos do Azure para Lote Verdade
Região cadeia Região do serviço de fala (exemplo: eastus) Verdade

Limitações

Nome Chamadas Período de renovação
Chamadas à API por conexão 100 60 segundos

Ações

Atualizar transcrição (V3.1)

Atualiza os detalhes mutáveis da transcrição identificada por sua ID.

Criar transcrição (V3.1)

Cria uma nova transcrição.

Excluir transcrição (V3.1)

Exclui a tarefa de transcrição especificada.

Obter a lista de transcrições (V3.1)

Obtém uma lista de transcrições para a assinatura autenticada.

Obter arquivo de transcrição (V3.1)

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Obter arquivos de lista de transcrições (V3.1)

Obtém os arquivos da transcrição identificada pela ID fornecida.

Obter localidades com suporte (V3.1)

Obtém uma lista de localidades com suporte para transcrições offline.

Obter transcrições (V3.1)

Obtém a transcrição identificada pela ID fornecida.

Atualizar transcrição (V3.1)

Atualiza os detalhes mutáveis da transcrição identificada por sua ID.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID
id True uuid

O identificador da transcrição.

self
self True uri

O local da entidade referenciada.

nome de exibição
displayName string

O nome do objeto.

descrição
description string

A descrição do objeto.

customProperties
customProperties object

As propriedades personalizadas dessa entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é 10.

Retornos

Criar transcrição (V3.1)

Cria uma nova transcrição.

Parâmetros

Nome Chave Obrigatório Tipo Description
contentUrls
contentUrls array of uri

Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta.

localidade
locale True string

A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado.

nome de exibição
displayName True string

O nome de exibição do objeto.

modelo
self uri

O local da entidade referenciada.

diarizationEnabled
diarizationEnabled boolean

Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é false. Se apenas esse campo for definido como true e o sistema de diarização aprimorado não estiver habilitado especificandoDiarizationProperties, um sistema de diarização básico distinguirá entre até dois alto-falantes. Os encargos noextra são aplicados nesse caso. O sistema de diarização aprimorado fornece diarização para um intervalo de alto-falantes aconfigurado. Ele pode ser configurado no DiarizationProperties campo. PRETERIDO: O sistema de diarização básico foi preterido e será removido junto com adiarizationEnabled configuração na próxima versão principal da API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão éfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é false.

canais
channels array of integer

Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.

destinationContainerUrl
destinationContainerUrl uri

O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um timeToLive, os metadados de atranscription serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados de transcrição, permanecerão intocados, pois nenhuma permissão de exclusão é necessária para esse código.
Para dar suporte à limpeza automática, configure os tempos de vida do blob no contêiner ou use "Traga seu próprio armazenamento (BYOS)" em vez de destinationContainerUrl, em que os blobs podem ser limpos.

pontuaçãoMode
punctuationMode string

O modo usado para pontuação.

profanityFilterMode
profanityFilterMode string

Modo de filtragem de palavrões.

timeToLive
timeToLive string

Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).

minCount
minCount integer

Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.

maxCount
maxCount integer

O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

candidateLocales
candidateLocales True array of string

As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição.

speechModelMapping
speechModelMapping object

Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades.

email
email string

O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito.

Retornos

Excluir transcrição (V3.1)

Exclui a tarefa de transcrição especificada.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID
id True uuid

O identificador da transcrição.

Obter a lista de transcrições (V3.1)

Obtém uma lista de transcrições para a assinatura autenticada.

Parâmetros

Nome Chave Obrigatório Tipo Description
Ignorar
skip integer

Número de conjuntos de dados que serão ignorados.

TOP
top integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter
filter string

Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.

  • Propriedades com suporte: displayName, description, createdDateTime, lastActionDateTime, status, localidade.
  • Operadores:
    – eq, ne têm suporte para todas as propriedades.
    - gt, ge, lt, le são compatíveis com createdDateTime e lastActionDateTime.
    - e, ou, não têm suporte.
  • exemplo:filter=createdDateTime gt 2022-02-01T11:00:00Z

Retornos

Obter arquivo de transcrição (V3.1)

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Parâmetros

Nome Chave Obrigatório Tipo Description
ID
id True uuid

O identificador da transcrição.

ID do arquivo
fileId True uuid

O identificador do arquivo.

Validade sas em segundos
sasValidityInSeconds integer

A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado.

Retornos

Corpo
File

Obter arquivos de lista de transcrições (V3.1)

Obtém os arquivos da transcrição identificada pela ID fornecida.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID
id True uuid

O identificador da transcrição.

Validade sas em segundos
sasValidityInSeconds integer

A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado.

Ignorar
skip integer

Número de conjuntos de dados que serão ignorados.

TOP
top integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter
filter string

Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis.

  • Propriedades com suporte: name, createdDateTime, kind.
  • Operadores:
    – eq, ne têm suporte para todas as propriedades.
    - gt, ge, lt, le são compatíveis com createdDateTime.
    - e, ou, não têm suporte.
  • exemplo:filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

Retornos

Obter localidades com suporte (V3.1)

Obtém uma lista de localidades com suporte para transcrições offline.

Retornos

Nome Caminho Tipo Description
array of string

Obter transcrições (V3.1)

Obtém a transcrição identificada pela ID fornecida.

Parâmetros

Nome Chave Obrigatório Tipo Description
ID
id True uuid

O identificador da transcrição.

Retornos

Definições

DiarizationProperties

Nome Caminho Tipo Description
falantes
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

Nome Caminho Tipo Description
minCount
minCount integer

Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.

maxCount
maxCount integer

O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

File

Nome Caminho Tipo Description
variante
kind FileKind

Tipo de dados.

links
links FileLinks
createdDateTime
createdDateTime date-time

A hora de criação desse arquivo. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).

propriedades
properties FileProperties
nome
name string

O nome desse arquivo.

FileKind

Tipo de dados.

Tipo de dados.

Nome Caminho Tipo Description
contentUrl
contentUrl uri

A URL para recuperar o conteúdo deste arquivo.

FileProperties

Nome Caminho Tipo Description
size
size integer

O tamanho dos dados em bytes.

duration
duration string

A duração, caso esse arquivo seja um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Nome Caminho Tipo Description
candidateLocales
candidateLocales array of string

As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição.

speechModelMapping
speechModelMapping object

Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades.

PaginatedFiles

Nome Caminho Tipo Description
values
values array of File

Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa.

@nextLink
@nextLink uri

Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo.

PaginatedTranscriptions

Nome Caminho Tipo Description
values
values array of Transcription

Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa.

@nextLink
@nextLink uri

Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo.

ProfanityFilterMode

Modo de filtragem de palavrões.

Modo de filtragem de palavrões.

PontuaçãoMode

O modo usado para pontuação.

O modo usado para pontuação.

Transcrição

Nome Caminho Tipo Description
contentUrls
contentUrls array of uri

Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta.

localidade
locale string

A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado.

nome de exibição
displayName string

O nome de exibição do objeto.

modelo
model.self uri

O local da entidade referenciada.

propriedades
properties TranscriptionProperties

TranscriptionProperties

Nome Caminho Tipo Description
diarizationEnabled
diarizationEnabled boolean

Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é false. Se apenas esse campo for definido como true e o sistema de diarização aprimorado não estiver habilitado especificandoDiarizationProperties, um sistema de diarização básico distinguirá entre até dois alto-falantes. Os encargos noextra são aplicados nesse caso. O sistema de diarização aprimorado fornece diarização para um intervalo de alto-falantes aconfigurado. Ele pode ser configurado no DiarizationProperties campo. PRETERIDO: O sistema de diarização básico foi preterido e será removido junto com adiarizationEnabled configuração na próxima versão principal da API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão éfalse.

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é false.

canais
channels array of integer

Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.

destinationContainerUrl
destinationContainerUrl uri

O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um timeToLive, os metadados de atranscription serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados de transcrição, permanecerão intocados, pois nenhuma permissão de exclusão é necessária para esse código.
Para dar suporte à limpeza automática, configure os tempos de vida do blob no contêiner ou use "Traga seu próprio armazenamento (BYOS)" em vez de destinationContainerUrl, em que os blobs podem ser limpos.

pontuaçãoMode
punctuationMode PunctuationMode

O modo usado para pontuação.

profanityFilterMode
profanityFilterMode ProfanityFilterMode

Modo de filtragem de palavrões.

timeToLive
timeToLive string

Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).

diarização
diarization DiarizationProperties
Identificação de idioma –
languageIdentification LanguageIdentificationProperties
email
email string

O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito.