Reconhecimento de Fala para Texto do Azure Batch
Transcreva áudio com precisão para texto em mais de 100 idiomas e variantes. Como parte do serviço de Fala de IA do Azure, a Transcrição em Lote permite transcrever uma grande quantidade de áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.
Esse conector está disponível nos seguintes produtos e regiões:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Standard | Todas as regiões do Power Automate , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Aplicativos Lógicos | Standard | Todas as regiões dos Aplicativos Lógicos , exceto as seguintes: - Regiões do Azure China |
| Power Apps | Standard | Todas as regiões do Power Apps , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Power Automate | Standard | Todas as regiões do Power Automate , exceto as seguintes: - China Cloud operado pela 21Vianet |
| Contato | |
|---|---|
| Nome | Equipe do Power Platform do Serviço de Fala |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| speechpowerplatform@microsoft.com |
| Metadados do conector | |
|---|---|
| Publicador | Microsoft |
| Site | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| Política de privacidade | https://privacy.microsoft.com |
| Categorias | IA; Site |
A API de transcrição em lote dos Serviços de Fala é um serviço baseado em nuvem que fornece o processamento assíncrono de reconhecimento de fala em lote por conteúdo de áudio fornecido. Esse conector expõe essas funções como operações no Microsoft Power Automate e no Power Apps.
Pré-requisitos
Você precisará do seguinte para continuar:
- Assinatura do Azure – Criar uma gratuitamente
- Crie um recurso de Fala no portal do Azure.
- Obtenha a chave e a região do recurso de Fala. Depois que seu recurso de Serviço Cognitivo do Azure para Fala for implantado, selecione Ir para o recurso para visualizar e gerenciar as chaves. Para obter mais informações sobre os recursos dos Serviços Cognitivos, consulte Obter as chaves do recurso.
- Carregue seus próprios dados ou use arquivos de áudio existentes por meio de URI público ou URI de SAS (assinatura de acesso compartilhado). Saiba mais aqui
Criando uma conexão
O conector dá suporte aos seguintes tipos de autenticação:
| Chave de API | ApiKey | Todas as regiões | Compartilhável |
| Microsoft Entra ID Integrado | Use a ID do Microsoft Entra para acessar seu serviço de fala. | Todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High) | Não compartilhável |
| Microsoft Entra ID Integrada (Azure Government) | Use a ID do Microsoft Entra para acessar seu serviço de fala. | Governo do Azure e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High) | Não compartilhável |
| Padrão [PRETERIDO] | Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores. | Todas as regiões | Não compartilhável |
Chave de API
ID de autenticação: keyBasedAuth
Aplicável: todas as regiões
ApiKey
Essa é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, a conexão também será compartilhada. Para obter mais informações, consulte a visão geral dos Conectores para aplicativos de tela – Power Apps | Microsoft Docs
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave de Conta | secureString | Chave do serviço de fala | Verdade |
| Região | cadeia | Região do serviço de fala (exemplo: eastus) | Verdade |
Microsoft Entra ID Integrado
ID de autenticação: tokenBasedAuth
Aplicável: todas as regiões, exceto o Azure Governamental e o Departamento de Defesa (DoD) no Azure Governamental e no Governo dos EUA (GCC-High)
Use a ID do Microsoft Entra para acessar seu serviço de fala.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Subdomínio Personalizado | cadeia | URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso) | Verdade |
Microsoft Entra ID Integrada (Azure Government)
ID de autenticação: tokenBasedAuth
Aplicável: Azure Governamental e Departamento de Defesa (DoD) somente no Azure Governamental e no Governo dos EUA (GCC-High)
Use a ID do Microsoft Entra para acessar seu serviço de fala.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Subdomínio Personalizado | cadeia | URL do ponto de extremidade de subdomínio personalizado (exemplo: contoso) | Verdade |
Padrão [PRETERIDO]
Aplicável: todas as regiões
Essa opção é apenas para conexões mais antigas sem um tipo de autenticação explícita e é fornecida apenas para compatibilidade com versões anteriores.
Essa não é uma conexão compartilhável. Se o aplicativo de energia for compartilhado com outro usuário, outro usuário será solicitado a criar uma nova conexão explicitamente.
| Nome | Tipo | Description | Obrigatório |
|---|---|---|---|
| Chave de Conta | secureString | Chave de Conta de Conversão de Fala em Texto dos Serviços Cognitivos do Azure para Lote | Verdade |
| Região | cadeia | Região do serviço de fala (exemplo: eastus) | Verdade |
Limitações
| Nome | Chamadas | Período de renovação |
|---|---|---|
| Chamadas à API por conexão | 100 | 60 segundos |
Ações
| Atualizar transcrição (V3.1) |
Atualiza os detalhes mutáveis da transcrição identificada por sua ID. |
| Criar transcrição (V3.1) |
Cria uma nova transcrição. |
| Excluir transcrição (V3.1) |
Exclui a tarefa de transcrição especificada. |
| Obter a lista de transcrições (V3.1) |
Obtém uma lista de transcrições para a assinatura autenticada. |
| Obter arquivo de transcrição (V3.1) |
Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id). |
| Obter arquivos de lista de transcrições (V3.1) |
Obtém os arquivos da transcrição identificada pela ID fornecida. |
| Obter localidades com suporte (V3.1) |
Obtém uma lista de localidades com suporte para transcrições offline. |
| Obter transcrições (V3.1) |
Obtém a transcrição identificada pela ID fornecida. |
Atualizar transcrição (V3.1)
Atualiza os detalhes mutáveis da transcrição identificada por sua ID.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID
|
id | True | uuid |
O identificador da transcrição. |
|
self
|
self | True | uri |
O local da entidade referenciada. |
|
nome de exibição
|
displayName | string |
O nome do objeto. |
|
|
descrição
|
description | string |
A descrição do objeto. |
|
|
customProperties
|
customProperties | object |
As propriedades personalizadas dessa entidade. O comprimento máximo permitido da chave é de 64 caracteres, o comprimento máximo do valor permitido é de 256 caracteres e a contagem de entradas permitidas é 10. |
Retornos
- Corpo
- Transcription
Criar transcrição (V3.1)
Cria uma nova transcrição.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta. |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta. |
|
|
localidade
|
locale | True | string |
A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado. |
|
nome de exibição
|
displayName | True | string |
O nome de exibição do objeto. |
|
modelo
|
self | uri |
O local da entidade referenciada. |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão é |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é |
|
|
canais
|
channels | array of integer |
Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados. |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um |
|
|
pontuaçãoMode
|
punctuationMode | string |
O modo usado para pontuação. |
|
|
profanityFilterMode
|
profanityFilterMode | string |
Modo de filtragem de palavrões. |
|
|
timeToLive
|
timeToLive | string |
Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
|
minCount
|
minCount | integer |
Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers. |
|
|
maxCount
|
maxCount | integer |
O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers. |
|
|
candidateLocales
|
candidateLocales | True | array of string |
As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição. |
|
speechModelMapping
|
speechModelMapping | object |
Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades. |
|
|
email
|
string |
O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito. |
Retornos
- Corpo
- Transcription
Excluir transcrição (V3.1)
Exclui a tarefa de transcrição especificada.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID
|
id | True | uuid |
O identificador da transcrição. |
Obter a lista de transcrições (V3.1)
Obtém uma lista de transcrições para a assinatura autenticada.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
Ignorar
|
skip | integer |
Número de conjuntos de dados que serão ignorados. |
|
|
TOP
|
top | integer |
Número de conjuntos de dados que serão incluídos depois de ignorar. |
|
|
Filter
|
filter | string |
Uma expressão de filtragem para selecionar um subconjunto das transcrições disponíveis.
|
Retornos
- Corpo
- PaginatedTranscriptions
Obter arquivo de transcrição (V3.1)
Obtém um arquivo específico (identificado com fileId) de uma transcrição (identificado com id).
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID
|
id | True | uuid |
O identificador da transcrição. |
|
ID do arquivo
|
fileId | True | uuid |
O identificador do arquivo. |
|
Validade sas em segundos
|
sasValidityInSeconds | integer |
A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado. |
Retornos
- Corpo
- File
Obter arquivos de lista de transcrições (V3.1)
Obtém os arquivos da transcrição identificada pela ID fornecida.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID
|
id | True | uuid |
O identificador da transcrição. |
|
Validade sas em segundos
|
sasValidityInSeconds | integer |
A duração em segundos em que uma URL SAS deve ser válida. A duração padrão é de 12 horas. Ao usar BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): um valor de 0 significa que um URI de blob sem token SAS será gerado. |
|
|
Ignorar
|
skip | integer |
Número de conjuntos de dados que serão ignorados. |
|
|
TOP
|
top | integer |
Número de conjuntos de dados que serão incluídos depois de ignorar. |
|
|
Filter
|
filter | string |
Uma expressão de filtragem para selecionar um subconjunto dos arquivos disponíveis.
|
Retornos
- Corpo
- PaginatedFiles
Obter localidades com suporte (V3.1)
Obtém uma lista de localidades com suporte para transcrições offline.
Retornos
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
|
array of string |
Obter transcrições (V3.1)
Obtém a transcrição identificada pela ID fornecida.
Parâmetros
| Nome | Chave | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
ID
|
id | True | uuid |
O identificador da transcrição. |
Retornos
- Corpo
- Transcription
Definições
DiarizationProperties
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
falantes
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
minCount
|
minCount | integer |
Uma dica para o número mínimo de alto-falantes para diarização. Deve ser menor ou igual à propriedade maxSpeakers. |
|
maxCount
|
maxCount | integer |
O número máximo de alto-falantes para a diarização. Deve ser menor que 36 e maior ou igual à propriedade minSpeakers. |
File
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
variante
|
kind | FileKind |
Tipo de dados. |
|
links
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
A hora de criação desse arquivo. O carimbo de data/hora é codificado como formato de data e hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations). |
|
propriedades
|
properties | FileProperties | |
|
nome
|
name | string |
O nome desse arquivo. |
FileKind
FileLinks
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
contentUrl
|
contentUrl | uri |
A URL para recuperar o conteúdo deste arquivo. |
FileProperties
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
size
|
size | integer |
O tamanho dos dados em bytes. |
|
duration
|
duration | string |
A duração, caso esse arquivo seja um arquivo de áudio. A duração é codificada como ISO 8601duration ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations). |
LanguageIdentificationProperties
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
As localidades candidatas para identificação de idioma (exemplo ["en-US", "de-DE", "es-ES"]). Há suporte para um mínimo de 2 e um máximo de 10 localidades candidatas, incluindo a localidade principal para a transcrição. |
|
speechModelMapping
|
speechModelMapping | object |
Um mapeamento opcional de localidades para entidades de modelo de fala. Se nenhum modelo for dado para uma localidade, o modelo base padrão será usado. As chaves devem ser localidades contidas nas localidades candidatas, os valores são entidades para modelos das respectivas localidades. |
PaginatedFiles
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of File |
Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa. |
|
@nextLink
|
@nextLink | uri |
Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo. |
PaginatedTranscriptions
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of Transcription |
Uma lista de entidades limitada pelos parâmetros de consulta passados 'skip' e 'top' ou seus valores padrão. Ao iterar por meio de uma lista usando paginação e excluindo entidades em paralelo, algumas entidades serão ignoradas nos resultados. É recomendável criar uma lista no cliente e excluir após a busca da lista completa. |
|
@nextLink
|
@nextLink | uri |
Um link para o próximo conjunto de resultados paginados se houver mais entidades disponíveis; caso contrário, nulo. |
ProfanityFilterMode
PontuaçãoMode
Transcrição
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Você pode fornecer uma lista de URLs de conteúdo para obter arquivos de áudio para transcrever. Até 1000 URLs são permitidas. Essa propriedade não será retornada em uma resposta. |
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, você pode fornecer uma URL para um contêiner de blob do Azure que contém os arquivos de áudio. Um contêiner tem permissão para ter um tamanho máximo de 5 GB e um número máximo de 10000 blobs. O tamanho máximo de um blob é de 2,5 GB. A SAS do contêiner deve conter permissões 'r' (leitura) e 'l' (lista). Essa propriedade não será retornada em uma resposta. |
|
localidade
|
locale | string |
A localidade dos dados contidos. Se a Identificação de Idiomas for usada, essa localidade será usada para transcrever a fala para a qual nenhum idioma pode ser detectado. |
|
nome de exibição
|
displayName | string |
O nome de exibição do objeto. |
|
modelo
|
model.self | uri |
O local da entidade referenciada. |
|
propriedades
|
properties | TranscriptionProperties |
TranscriptionProperties
| Nome | Caminho | Tipo | Description |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Um valor que indica se a diarização (identificação do locutor) é solicitada. O valor padrão é |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora de nível de palavra são solicitados. O valor padrão é |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Um valor que indica se os carimbos de data/hora de nível de palavra para o formulário de exibição são solicitados. O valor padrão é |
|
canais
|
channels | array of integer |
Uma coleção dos números de canal solicitados. No caso padrão, os canais 0 e 1 são considerados. |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
O contêiner de destino solicitado.### Comentários ###When um contêiner de destino é usado em combinação com um |
|
pontuaçãoMode
|
punctuationMode | PunctuationMode |
O modo usado para pontuação. |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
Modo de filtragem de palavrões. |
|
timeToLive
|
timeToLive | string |
Por quanto tempo a transcrição será mantida no sistema após a conclusão. Depois que a transcrição atingir o tempo de vida útil após a conclusão (bem-sucedida ou com falha), ela será automaticamente desabilitar. Não definir esse valor ou defini-lo como 0 desabilitará a exclusão automática. A maior duração com suporte é de 31 dias. A duração é codificada como duração ISO 8601 ("PnYnMnDTnHnMnS", consulte https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
diarização
|
diarization | DiarizationProperties | |
|
Identificação de idioma –
|
languageIdentification | LanguageIdentificationProperties | |
|
email
|
string |
O endereço de email para o qual enviar notificações por email caso a operação seja concluída. O valor será removido depois de enviar o email com êxito. |