Conversión de voz en texto en Azure Batch
Transcriba con precisión el audio al texto en más de 100 idiomas y variantes. Como parte del servicio De voz de Azure AI, Batch Transcription le permite transcribir una gran cantidad de audio en el almacenamiento. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.
Este conector está disponible en los siguientes productos y regiones:
| Service | Class | Regions |
|---|---|---|
| Copilot Studio | Estándar | Todas las regiones de Power Automate excepto las siguientes: - China Cloud operado por 21Vianet |
| Aplicaciones lógicas | Estándar | Todas las regiones de Logic Apps excepto las siguientes: - Regiones de Azure China |
| Power Apps | Estándar | Todas las regiones de Power Apps excepto las siguientes: - China Cloud operado por 21Vianet |
| Power Automate | Estándar | Todas las regiones de Power Automate excepto las siguientes: - China Cloud operado por 21Vianet |
| Contacto | |
|---|---|
| Nombre | Equipo de Power Platform del servicio Voz |
| URL | https://docs.microsoft.com/azure/cognitive-services/speech-service/support |
| Correo Electrónico | speechpowerplatform@microsoft.com |
| Metadatos del conector | |
|---|---|
| Publicador | Microsoft |
| Website | https://docs.microsoft.com/azure/cognitive-services/speech-service/ |
| Directiva de privacidad | https://privacy.microsoft.com |
| Categorías | IA; Sitio web |
La API de transcripción por lotes de Speech Services es un servicio basado en la nube que proporciona procesamiento asincrónico de reconocimiento de voz por lotes a través del contenido de audio proporcionado. Este conector expone estas funciones como operaciones en Microsoft Power Automate y Power Apps.
Requisitos previos
Necesitará lo siguiente para continuar:
- Una suscripción a Azure: cree una cuenta gratuita
- Cree un recurso de voz en Azure Portal.
- Obtenga la clave y la región del recurso de Voz. Una vez implementado el recurso de Voz, seleccione Ir al recurso para ver y administrar claves. Para obtener más información sobre los recursos de Cognitive Services, consulte Obtención de las claves del recurso.
- Cargue sus propios datos o use archivos de audio existentes a través del URI público o el URI de firma de acceso compartido (SAS). Más información aquí
Creación de una conexión
El conector admite los siguientes tipos de autenticación:
| Clave de API | ApiKey | Todas las regiones | Compartible |
| Microsoft Entra ID: integrado | Use Microsoft Entra ID para acceder al servicio de voz. | Todas las regiones excepto Azure Government y el Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High) | No se puede compartir |
| Microsoft Entra ID integrado (Azure Government) | Use Microsoft Entra ID para acceder al servicio de voz. | Azure Government y el Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High) | No se puede compartir |
| Valor predeterminado [EN DESUSO] | Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores. | Todas las regiones | No se puede compartir |
Clave de API
Identificador de autenticación: keyBasedAuth
Aplicable: Todas las regiones
ApiKey
Se trata de una conexión que se puede compartir. Si la aplicación de energía se comparte con otro usuario, también se comparte la conexión. Para más información, consulte introducción a los conectores para aplicaciones de lienzo: Power Apps | Microsoft Docs
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Clave de cuenta | securestring | Clave de servicio de voz | Cierto |
| Región | cuerda / cadena | Región del servicio voz (ejemplo: eastus) | Cierto |
Microsoft Entra ID integrado
Identificador de autenticación: tokenBasedAuth
Aplicable: todas las regiones excepto Azure Government y Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High)
Use Microsoft Entra ID para acceder al servicio de voz.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Subdominio personalizado | cuerda / cadena | Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso) | Cierto |
Microsoft Entra ID integrado (Azure Government)
Identificador de autenticación: tokenBasedAuth
Aplicable: Azure Government y Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High)
Use Microsoft Entra ID para acceder al servicio de voz.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Subdominio personalizado | cuerda / cadena | Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso) | Cierto |
Valor predeterminado [EN DESUSO]
Aplicable: Todas las regiones
Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores.
Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.
| Nombre | Tipo | Description | Obligatorio |
|---|---|---|---|
| Clave de cuenta | securestring | Clave de cuenta de voz a texto de Azure Cognitive Services para Batch | Cierto |
| Región | cuerda / cadena | Región del servicio voz (ejemplo: eastus) | Cierto |
Limitaciones
| Nombre | Llamadas | Período de renovación |
|---|---|---|
| Llamadas API por conexión | 100 | 60 segundos |
Acciones
| Actualización de la transcripción (V3.1) |
Actualiza los detalles mutables de la transcripción identificada por su identificador. |
| Crear transcripción (V3.1) |
Crea una nueva transcripción. |
| Eliminación de la transcripción (V3.1) |
Elimina la tarea de transcripción especificada. |
| Obtención de archivos de lista de transcripciones (V3.1) |
Obtiene los archivos de la transcripción identificada por el identificador especificado. |
| Obtención de transcripciones (V3.1) |
Obtiene la transcripción identificada por el identificador especificado. |
| Obtener configuraciones regionales admitidas (V3.1) |
Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión. |
| Obtener el archivo de transcripción (V3.1) |
Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador). |
| Obtener la lista de transcripciones (V3.1) |
Obtiene una lista de transcripciones de la suscripción autenticada. |
Actualización de la transcripción (V3.1)
Actualiza los detalles mutables de la transcripción identificada por su identificador.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificador de la transcripción. |
|
propio
|
self | True | uri |
Ubicación de la entidad a la que se hace referencia. |
|
Nombre para mostrar
|
displayName | string |
Nombre del objeto. |
|
|
descripción
|
description | string |
Descripción del objeto. |
|
|
customProperties
|
customProperties | object |
Propiedades personalizadas de esta entidad. La longitud máxima de clave permitida es de 64 caracteres, la longitud máxima permitida del valor es de 256 caracteres y el recuento de entradas permitidas es 10. |
Devoluciones
- Body
- Transcription
Crear transcripción (V3.1)
Crea una nueva transcripción.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta. |
|
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta. |
|
|
configuración regional
|
locale | True | string |
Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma. |
|
Nombre para mostrar
|
displayName | True | string |
Nombre para mostrar del objeto. |
|
model
|
self | uri |
Ubicación de la entidad a la que se hace referencia. |
|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es |
|
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado es |
|
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es |
|
|
canales nueva
|
channels | array of integer |
Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1. |
|
|
destinationContainerUrl
|
destinationContainerUrl | uri |
El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , |
|
|
puntuaciónMode
|
punctuationMode | string |
Modo que se usa para la puntuación. |
|
|
profanityFilterMode
|
profanityFilterMode | string |
Modo de filtrado de palabras soeces. |
|
|
timeToLive
|
timeToLive | string |
Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
|
minCount
|
minCount | integer |
Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers. |
|
|
maxCount
|
maxCount | integer |
Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers. |
|
|
candidateLocales
|
candidateLocales | True | array of string |
Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción. |
|
speechModelMapping
|
speechModelMapping | object |
Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas. |
|
|
Correo electrónico
|
string |
La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico. |
Devoluciones
- Body
- Transcription
Eliminación de la transcripción (V3.1)
Elimina la tarea de transcripción especificada.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificador de la transcripción. |
Obtención de archivos de lista de transcripciones (V3.1)
Obtiene los archivos de la transcripción identificada por el identificador especificado.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificador de la transcripción. |
|
Validez de Sas en segundos
|
sasValidityInSeconds | integer |
Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS. |
|
|
Omitir
|
skip | integer |
Número de conjuntos de datos que se omitirán. |
|
|
Arriba
|
top | integer |
Número de conjuntos de datos que se incluirán después de omitir. |
|
|
Filter
|
filter | string |
Expresión de filtrado para seleccionar un subconjunto de los archivos disponibles.
|
Devoluciones
- Body
- PaginatedFiles
Obtención de transcripciones (V3.1)
Obtiene la transcripción identificada por el identificador especificado.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificador de la transcripción. |
Devoluciones
- Body
- Transcription
Obtener configuraciones regionales admitidas (V3.1)
Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión.
Devoluciones
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
|
array of string |
Obtener el archivo de transcripción (V3.1)
Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador).
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Id
|
id | True | uuid |
Identificador de la transcripción. |
|
Id. de archivo
|
fileId | True | uuid |
Identificador del archivo. |
|
Validez de Sas en segundos
|
sasValidityInSeconds | integer |
Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS. |
Devoluciones
- Body
- File
Obtener la lista de transcripciones (V3.1)
Obtiene una lista de transcripciones de la suscripción autenticada.
Parámetros
| Nombre | Clave | Requerido | Tipo | Description |
|---|---|---|---|---|
|
Omitir
|
skip | integer |
Número de conjuntos de datos que se omitirán. |
|
|
Arriba
|
top | integer |
Número de conjuntos de datos que se incluirán después de omitir. |
|
|
Filter
|
filter | string |
Expresión de filtrado para seleccionar un subconjunto de las transcripciones disponibles.
|
Devoluciones
Definiciones
DiarizationProperties
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
Altavoces
|
speakers | DiarizationSpeakersProperties |
DiarizationSpeakersProperties
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
minCount
|
minCount | integer |
Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers. |
|
maxCount
|
maxCount | integer |
Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers. |
Archivo
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
amable
|
kind | FileKind |
Tipo de datos. |
|
Enlaces
|
links | FileLinks | |
|
createdDateTime
|
createdDateTime | date-time |
Hora de creación de este archivo. La marca de tiempo se codifica como formato de fecha y hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations). |
|
Propiedades
|
properties | FileProperties | |
|
nombre
|
name | string |
Nombre de este archivo. |
FileKind
FileLinks
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
URL de contenido
|
contentUrl | uri |
Dirección URL para recuperar el contenido de este archivo. |
FileProperties
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
size
|
size | integer |
Tamaño de los datos en bytes. |
|
duration
|
duration | string |
La duración en caso de que este archivo sea un archivo de audio. La duración se codifica como ISO 8601duration ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations). |
LanguageIdentificationProperties
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
candidateLocales
|
candidateLocales | array of string |
Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción. |
|
speechModelMapping
|
speechModelMapping | object |
Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas. |
PaginatedFiles
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of File |
Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa. |
|
@nextLink
|
@nextLink | uri |
Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null. |
PaginatedTranscriptions
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
values
|
values | array of Transcription |
Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa. |
|
@nextLink
|
@nextLink | uri |
Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null. |
ProfanityFilterMode
PuntuaciónMode
Transcripción
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
contentUrls
|
contentUrls | array of uri |
Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta. |
|
contentContainerUrl
|
contentContainerUrl | uri |
Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta. |
|
configuración regional
|
locale | string |
Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma. |
|
Nombre para mostrar
|
displayName | string |
Nombre para mostrar del objeto. |
|
model
|
model.self | uri |
Ubicación de la entidad a la que se hace referencia. |
|
Propiedades
|
properties | TranscriptionProperties |
TranscriptionProperties
| Nombre | Ruta de acceso | Tipo | Description |
|---|---|---|---|
|
diarizationEnabled
|
diarizationEnabled | boolean |
Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es |
|
wordLevelTimestampsEnabled
|
wordLevelTimestampsEnabled | boolean |
Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado es |
|
displayFormWordLevelTimestampsEnabled
|
displayFormWordLevelTimestampsEnabled | boolean |
Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es |
|
canales nueva
|
channels | array of integer |
Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1. |
|
destinationContainerUrl
|
destinationContainerUrl | uri |
El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , |
|
puntuaciónMode
|
punctuationMode | PunctuationMode |
Modo que se usa para la puntuación. |
|
profanityFilterMode
|
profanityFilterMode | ProfanityFilterMode |
Modo de filtrado de palabras soeces. |
|
timeToLive
|
timeToLive | string |
Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations). |
|
diarización
|
diarization | DiarizationProperties | |
|
Identificación del idioma:
|
languageIdentification | LanguageIdentificationProperties | |
|
Correo electrónico
|
string |
La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico. |