Reconhecimento de Fala para Texto do Azure Batch

Transcreva áudio com precisão para texto em mais de 100 idiomas e variantes. Como parte do serviço de Fala de IA do Azure, a Transcrição em Lote permite transcrever uma grande quantidade de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.

Esse conector está disponível nos seguintes produtos e regiões:

Service	Class	Regions
Copilot Studio	Standard	Todas as regiões do Power Automate , exceto as seguintes: - China Cloud operado pela 21Vianet
Aplicativos Lógicos	Standard	Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: - Regiões do Azure China
Power Apps	Standard	Todas as regiões do Power Apps , exceto as seguintes: - China Cloud operado pela 21Vianet
Power Automate	Standard	Todas as regiões do Power Automate , exceto as seguintes: - China Cloud operado pela 21Vianet

Contato
Nome	Equipe do Power Platform do Serviço de Fala
URL	https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Email	speechpowerplatform@microsoft.com

Metadados do conector
Publicador	Microsoft
Site	https://docs.microsoft.com/azure/cognitive-services/speech-service/
Política de privacidade	https://privacy.microsoft.com
Categorias	IA; Site

A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece o processamento assíncrono de reconhecimento de fala em lote por conteúdo de áudio fornecido. Esse conector expõe essas funções como operações no Microsoft Power Automate e no Power Apps.

Pré-requisitos

Você precisará do seguinte para continuar:

Assinatura do Azure – Criar uma gratuitamente
Crie um recurso de Fala no portal do Azure.
Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves. Para obter mais informações sobre os recursos dos Serviços Cognitivos, consulte Obter as chaves do recurso.
Carregue seus próprios dados ou use arquivos de áudio existentes por meio de URI público ou URI de SAS (assinatura de acesso compartilhado). Saiba mais aqui

Criando uma conexão

O conector dá suporte aos seguintes tipos de autenticação:


Chave de API	ApiKey	Todas as regiões	Compartilhável
Microsoft Entra ID Integrado	Use a ID do Microsoft Entra para acessar seu serviço de fala.	Todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High)	Não compartilhável
Microsoft Entra ID Integrada (Azure Government)	Use a ID do Microsoft Entra para acessar seu serviço de fala.	Governo do Azure e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High)	Não compartilhável
Padrão [PRETERIDO]	Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.	Todas as regiões	Não compartilhável

Chave de API

ID de autenticação: keyBasedAuth

Aplicável: todas as regiões

ApiKey

Essa é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a visão geral dos Conectores para aplicativos de tela – Power Apps | Microsoft Docs

Nome	Tipo	Description	Obrigatório
Chave de Conta	secureString	Chave do serviço de fala	Verdade
Região	cadeia	Região do serviço de fala (exemplo: eastus)	Verdade

Microsoft Entra ID Integrado

ID de autenticação: tokenBasedAuth

Aplicável: todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High)

Use a ID do Microsoft Entra para acessar seu serviço de fala.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Subdomínio Personalizado	cadeia	URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso)	Verdade

Microsoft Entra ID Integrada (Azure Government)

ID de autenticação: tokenBasedAuth

Aplicável: Azure Governamental e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High)

Use a ID do Microsoft Entra para acessar seu serviço de fala.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Subdomínio Personalizado	cadeia	URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso)	Verdade

Padrão [PRETERIDO]

Aplicável: todas as regiões

Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.

Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.

Nome	Tipo	Description	Obrigatório
Chave de Conta	secureString	Chave de Conta de Conversão de Fala em Texto dos Serviços Cognitivos do Azure para Lote	Verdade
Região	cadeia	Região do serviço de fala (exemplo: eastus)	Verdade

Limitações

Nome	Chamadas	Período de renovação
Chamadas à API por conexão	100	60 segundos

Ações

Atualizar transcrição (V3.1)	Atualiza os detalhes mutáveis da transcrição identificada por sua ID.
Criar transcrição (V3.1)	Cria uma nova transcrição.
Excluir transcrição (V3.1)	Exclui a tarefa de transcrição especificada.
Obter a lista de transcrições (V3.1)	Obtém uma lista de transcrições para a assinatura autenticada.
Obter arquivo de transcrição (V3.1)	Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).
Obter arquivos de lista de transcrições (V3.1)	Obtém os arquivos da transcrição identificada pela ID fornecida.
Obter localidades com suporte (V3.1)	Obtém uma lista de localidades com suporte para transcrições offline.
Obter transcrições (V3.1)	Obtém a transcrição identificada pela ID fornecida.

Atualizar transcrição (V3.1)

ID da operação:: UpdateTranscriptions

Atualiza os detalhes mutáveis da transcrição identificada por sua ID.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID	id	True	uuid	O identificador da transcrição.
self	self	True	uri	O local da entidade referenciada.
nome de exibição	displayName		string	O nome do objeto.
descrição	description		string	A descrição do objeto.
customProperties	customProperties		object	As propriedades personalizadas dessa entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é 10.

Retornos

Corpo: Transcription

Criar transcrição (V3.1)

ID da operação:: CreateTranscriptions

Cria uma nova transcrição.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
contentUrls	contentUrls		array of uri	Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta.
contentContainerUrl	contentContainerUrl		uri	Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta.
localidade	locale	True	string	A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado.
nome de exibição	displayName	True	string	O nome de exibição do objeto.
modelo	self		uri	O local da entidade referenciada.
diarizationEnabled	diarizationEnabled		boolean	Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é `false`. Se apenas esse campo for definido como true e o sistema de diarização aprimorado não estiver habilitado especificando`DiarizationProperties`, um sistema de diarização básico distinguirá entre até dois alto-falantes. Os encargos noextra são aplicados nesse caso. O sistema de diarização aprimorado fornece diarização para um intervalo de alto-falantes aconfigurado. Ele pode ser configurado no `DiarizationProperties` campo. PRETERIDO: O sistema de diarização básico foi preterido e será removido junto com a`diarizationEnabled` configuração na próxima versão principal da API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled		boolean	Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão é`false`.
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled		boolean	Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é `false`.
canais	channels		array of integer	Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.
destinationContainerUrl	destinationContainerUrl		uri	O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um `timeToLive`, os metadados de atranscription serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados de transcrição, permanecerão intocados, pois nenhuma permissão de exclusão é necessária para esse código. Para dar suporte à limpeza automática, configure os tempos de vida do blob no contêiner ou use "Traga seu próprio armazenamento (BYOS)" em vez de `destinationContainerUrl`, em que os blobs podem ser limpos.
pontuaçãoMode	punctuationMode		string	O modo usado para pontuação.
profanityFilterMode	profanityFilterMode		string	Modo de filtragem de palavrões.
timeToLive	timeToLive		string	Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).
minCount	minCount		integer	Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.
maxCount	maxCount		integer	O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.
candidateLocales	candidateLocales	True	array of string	As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição.
speechModelMapping	speechModelMapping		object	Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades.
email	email		string	O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito.

Retornos

Corpo: Transcription

Excluir transcrição (V3.1)

ID da operação:: DeleteTranscriptions

Exclui a tarefa de transcrição especificada.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID	id	True	uuid	O identificador da transcrição.

Obter a lista de transcrições (V3.1)

ID da operação:: TranscriptionsList

Obtém uma lista de transcrições para a assinatura autenticada.

Parâmetros

Nome Chave Obrigatório Tipo Description

Nome	Chave	Tipo	Description
Ignorar	skip	integer	Número de conjuntos de dados que serão ignorados.
TOP	top	integer	Número de conjuntos de dados que serão incluídos depois de ignorar.
Filter	filter	string	Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis. Propriedades com suporte: displayName, description, createdDateTime, lastActionDateTime, status, localidade. Operadores: – eq, ne têm suporte para todas as propriedades. - gt, ge, lt, le são compatíveis com createdDateTime e lastActionDateTime. - e, ou, não têm suporte. exemplo:`filter=createdDateTime gt 2022-02-01T11:00:00Z`

Ignorar

skip

integer

Número de conjuntos de dados que serão ignorados.

TOP

top

integer

Número de conjuntos de dados que serão incluídos depois de ignorar.

Filter

filter

string

Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.

Propriedades com suporte: displayName, description, createdDateTime, lastActionDateTime, status, localidade.
Operadores:
– eq, ne têm suporte para todas as propriedades.
- gt, ge, lt, le são compatíveis com createdDateTime e lastActionDateTime.
- e, ou, não têm suporte.
exemplo:filter=createdDateTime gt 2022-02-01T11:00:00Z

Retornos

Corpo: PaginatedTranscriptions

Obter arquivo de transcrição (V3.1)

ID da operação:: GetTranscriptionsFile

Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID	id	True	uuid	O identificador da transcrição.
ID do arquivo	fileId	True	uuid	O identificador do arquivo.
Validade sas em segundos	sasValidityInSeconds		integer	A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado.

Retornos

Corpo: File

Obter arquivos de lista de transcrições (V3.1)

ID da operação:: TranscriptionsListFiles

Obtém os arquivos da transcrição identificada pela ID fornecida.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID	id	True	uuid	O identificador da transcrição.
Validade sas em segundos	sasValidityInSeconds		integer	A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado.
Ignorar	skip		integer	Número de conjuntos de dados que serão ignorados.
TOP	top		integer	Número de conjuntos de dados que serão incluídos depois de ignorar.
Filter	filter		string	Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis. Propriedades com suporte: name, createdDateTime, kind. Operadores: – eq, ne têm suporte para todas as propriedades. - gt, ge, lt, le são compatíveis com createdDateTime. - e, ou, não têm suporte. exemplo:`filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'`

Retornos

Corpo: PaginatedFiles

Obter localidades com suporte (V3.1)

ID da operação:: SupportedTranscriptionLocalesList

Obtém uma lista de localidades com suporte para transcrições offline.

Retornos

Nome	Caminho	Tipo	Description
		array of string

Obter transcrições (V3.1)

ID da operação:: GetTranscriptions

Obtém a transcrição identificada pela ID fornecida.

Parâmetros

Nome	Chave	Obrigatório	Tipo	Description
ID	id	True	uuid	O identificador da transcrição.

Retornos

Corpo: Transcription

Definições

DiarizationProperties

Nome	Caminho	Tipo	Description
falantes	speakers	DiarizationSpeakersProperties

DiarizationSpeakersProperties

Nome	Caminho	Tipo	Description
minCount	minCount	integer	Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers.
maxCount	maxCount	integer	O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers.

File

Nome	Caminho	Tipo	Description
variante	kind	FileKind	Tipo de dados.
links	links	FileLinks
createdDateTime	createdDateTime	date-time	A hora de criação desse arquivo. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).
propriedades	properties	FileProperties
nome	name	string	O nome desse arquivo.

FileKind

Tipo de dados.

: string

FileLinks

Nome	Caminho	Tipo	Description
contentUrl	contentUrl	uri	A URL para recuperar o conteúdo deste arquivo.

FileProperties

Nome	Caminho	Tipo	Description
size	size	integer	O tamanho dos dados em bytes.
duration	duration	string	A duração, caso esse arquivo seja um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Nome	Caminho	Tipo	Description
candidateLocales	candidateLocales	array of string	As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição.
speechModelMapping	speechModelMapping	object	Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades.

PaginatedFiles

Nome	Caminho	Tipo	Description
values	values	array of File	Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa.
@nextLink	@nextLink	uri	Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo.

PaginatedTranscriptions

Nome	Caminho	Tipo	Description
values	values	array of Transcription	Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa.
@nextLink	@nextLink	uri	Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo.

ProfanityFilterMode

Modo de filtragem de palavrões.

: string

PontuaçãoMode

O modo usado para pontuação.

: string

Transcrição

Nome	Caminho	Tipo	Description
contentUrls	contentUrls	array of uri	Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta.
contentContainerUrl	contentContainerUrl	uri	Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta.
localidade	locale	string	A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado.
nome de exibição	displayName	string	O nome de exibição do objeto.
modelo	model.self	uri	O local da entidade referenciada.
propriedades	properties	TranscriptionProperties

TranscriptionProperties

Nome	Caminho	Tipo	Description
diarizationEnabled	diarizationEnabled	boolean	Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é `false`. Se apenas esse campo for definido como true e o sistema de diarização aprimorado não estiver habilitado especificando`DiarizationProperties`, um sistema de diarização básico distinguirá entre até dois alto-falantes. Os encargos noextra são aplicados nesse caso. O sistema de diarização aprimorado fornece diarização para um intervalo de alto-falantes aconfigurado. Ele pode ser configurado no `DiarizationProperties` campo. PRETERIDO: O sistema de diarização básico foi preterido e será removido junto com a`diarizationEnabled` configuração na próxima versão principal da API.
wordLevelTimestampsEnabled	wordLevelTimestampsEnabled	boolean	Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão é`false`.
displayFormWordLevelTimestampsEnabled	displayFormWordLevelTimestampsEnabled	boolean	Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é `false`.
canais	channels	array of integer	Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados.
destinationContainerUrl	destinationContainerUrl	uri	O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um `timeToLive`, os metadados de atranscription serão excluídos normalmente, mas os dados armazenados no contêiner de destino, incluindo os resultados de transcrição, permanecerão intocados, pois nenhuma permissão de exclusão é necessária para esse código. Para dar suporte à limpeza automática, configure os tempos de vida do blob no contêiner ou use "Traga seu próprio armazenamento (BYOS)" em vez de `destinationContainerUrl`, em que os blobs podem ser limpos.
pontuaçãoMode	punctuationMode	PunctuationMode	O modo usado para pontuação.
profanityFilterMode	profanityFilterMode	ProfanityFilterMode	Modo de filtragem de palavrões.
timeToLive	timeToLive	string	Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations).
diarização	diarization	DiarizationProperties
Identificação de idioma –	languageIdentification	LanguageIdentificationProperties
email	email	string	O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito.

Compartilhar via

Reconhecimento de Fala para Texto do Azure Batch

Pré-requisitos

Criando uma conexão

Chave de API

Microsoft Entra ID Integrado

Microsoft Entra ID Integrada (Azure Government)

Padrão [PRETERIDO]

Limitações

Ações

Atualizar transcrição (V3.1)

Parâmetros

Retornos

Criar transcrição (V3.1)

Parâmetros

Retornos

Excluir transcrição (V3.1)

Parâmetros

Obter a lista de transcrições (V3.1)

Parâmetros

Retornos

Obter arquivo de transcrição (V3.1)

Parâmetros

Retornos

Obter arquivos de lista de transcrições (V3.1)

Parâmetros

Retornos

Obter localidades com suporte (V3.1)

Retornos

Obter transcrições (V3.1)

Parâmetros

Retornos

Definições

DiarizationProperties

DiarizationSpeakersProperties

File

FileKind

FileLinks

FileProperties

LanguageIdentificationProperties

PaginatedFiles

PaginatedTranscriptions

ProfanityFilterMode

PontuaçãoMode

Transcrição

TranscriptionProperties