Compartir a través de


Conversión de voz en texto en Azure Batch

Transcriba con precisión el audio al texto en más de 100 idiomas y variantes. Como parte del servicio De voz de Azure AI, Batch Transcription le permite transcribir una gran cantidad de audio en el almacenamiento. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.

Este conector está disponible en los siguientes productos y regiones:

Service Class Regions
Copilot Studio Estándar Todas las regiones de Power Automate excepto las siguientes:
     - China Cloud operado por 21Vianet
Aplicaciones lógicas Estándar Todas las regiones de Logic Apps excepto las siguientes:
     - Regiones de Azure China
Power Apps Estándar Todas las regiones de Power Apps excepto las siguientes:
     - China Cloud operado por 21Vianet
Power Automate Estándar Todas las regiones de Power Automate excepto las siguientes:
     - China Cloud operado por 21Vianet
Contacto
Nombre Equipo de Power Platform del servicio Voz
URL https://docs.microsoft.com/azure/cognitive-services/speech-service/support
Correo Electrónico speechpowerplatform@microsoft.com
Metadatos del conector
Publicador Microsoft
Website https://docs.microsoft.com/azure/cognitive-services/speech-service/
Directiva de privacidad https://privacy.microsoft.com
Categorías IA; Sitio web

La API de transcripción por lotes de Speech Services es un servicio basado en la nube que proporciona procesamiento asincrónico de reconocimiento de voz por lotes a través del contenido de audio proporcionado. Este conector expone estas funciones como operaciones en Microsoft Power Automate y Power Apps.

Requisitos previos

Necesitará lo siguiente para continuar:

Creación de una conexión

El conector admite los siguientes tipos de autenticación:

Clave de API ApiKey Todas las regiones Compartible
Microsoft Entra ID: integrado Use Microsoft Entra ID para acceder al servicio de voz. Todas las regiones excepto Azure Government y el Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High) No se puede compartir
Microsoft Entra ID integrado (Azure Government) Use Microsoft Entra ID para acceder al servicio de voz. Azure Government y el Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High) No se puede compartir
Valor predeterminado [EN DESUSO] Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores. Todas las regiones No se puede compartir

Clave de API

Identificador de autenticación: keyBasedAuth

Aplicable: Todas las regiones

ApiKey

Se trata de una conexión que se puede compartir. Si la aplicación de energía se comparte con otro usuario, también se comparte la conexión. Para más información, consulte introducción a los conectores para aplicaciones de lienzo: Power Apps | Microsoft Docs

Nombre Tipo Description Obligatorio
Clave de cuenta securestring Clave de servicio de voz Cierto
Región cuerda / cadena Región del servicio voz (ejemplo: eastus) Cierto

Microsoft Entra ID integrado

Identificador de autenticación: tokenBasedAuth

Aplicable: todas las regiones excepto Azure Government y Departamento de Defensa (DoD) en Azure Government y us Government (GCC-High)

Use Microsoft Entra ID para acceder al servicio de voz.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Subdominio personalizado cuerda / cadena Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso) Cierto

Microsoft Entra ID integrado (Azure Government)

Identificador de autenticación: tokenBasedAuth

Aplicable: Azure Government y Departamento de Defensa (DoD) solo en Azure Government y us Government (GCC-High)

Use Microsoft Entra ID para acceder al servicio de voz.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Subdominio personalizado cuerda / cadena Dirección URL del punto de conexión de subdominio personalizado (ejemplo: contoso) Cierto

Valor predeterminado [EN DESUSO]

Aplicable: Todas las regiones

Esta opción solo es para conexiones anteriores sin un tipo de autenticación explícito y solo se proporciona para la compatibilidad con versiones anteriores.

Esta conexión no se puede compartir. Si la aplicación de energía se comparte con otro usuario, se pedirá a otro usuario que cree explícitamente una nueva conexión.

Nombre Tipo Description Obligatorio
Clave de cuenta securestring Clave de cuenta de voz a texto de Azure Cognitive Services para Batch Cierto
Región cuerda / cadena Región del servicio voz (ejemplo: eastus) Cierto

Limitaciones

Nombre Llamadas Período de renovación
Llamadas API por conexión 100 60 segundos

Acciones

Actualización de la transcripción (V3.1)

Actualiza los detalles mutables de la transcripción identificada por su identificador.

Crear transcripción (V3.1)

Crea una nueva transcripción.

Eliminación de la transcripción (V3.1)

Elimina la tarea de transcripción especificada.

Obtención de archivos de lista de transcripciones (V3.1)

Obtiene los archivos de la transcripción identificada por el identificador especificado.

Obtención de transcripciones (V3.1)

Obtiene la transcripción identificada por el identificador especificado.

Obtener configuraciones regionales admitidas (V3.1)

Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión.

Obtener el archivo de transcripción (V3.1)

Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador).

Obtener la lista de transcripciones (V3.1)

Obtiene una lista de transcripciones de la suscripción autenticada.

Actualización de la transcripción (V3.1)

Actualiza los detalles mutables de la transcripción identificada por su identificador.

Parámetros

Nombre Clave Requerido Tipo Description
Id
id True uuid

Identificador de la transcripción.

propio
self True uri

Ubicación de la entidad a la que se hace referencia.

Nombre para mostrar
displayName string

Nombre del objeto.

descripción
description string

Descripción del objeto.

customProperties
customProperties object

Propiedades personalizadas de esta entidad. La longitud máxima de clave permitida es de 64 caracteres, la longitud máxima permitida del valor es de 256 caracteres y el recuento de entradas permitidas es 10.

Devoluciones

Crear transcripción (V3.1)

Crea una nueva transcripción.

Parámetros

Nombre Clave Requerido Tipo Description
contentUrls
contentUrls array of uri

Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta.

configuración regional
locale True string

Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma.

Nombre para mostrar
displayName True string

Nombre para mostrar del objeto.

model
self uri

Ubicación de la entidad a la que se hace referencia.

diarizationEnabled
diarizationEnabled boolean

Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es false. Si solo este campo se establece en true y el sistema de diarización mejorado no está habilitado especificandoDiarizationProperties, un sistema de diarización básico distinguirá entre hasta dos altavoces. Los cargos noextra se aplican en este caso. El sistema de diarización mejorado proporciona diarización para un intervalo de altavoces que se puede configurar. Se puede configurar en el DiarizationProperties campo . EN DESUSO: el sistema de diarización básica está en desuso y se quitará junto con la configuración de ladiarizationEnabled siguiente versión principal de la API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado esfalse .

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es false.

canales nueva
channels array of integer

Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1.

destinationContainerUrl
destinationContainerUrl uri

El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , timeToLivelos metadatos de atranscription se eliminarán normalmente, pero los datos almacenados en el contenedor de destino, incluidos los resultados de latranscriptión, permanecerán intactos, ya que no se requieren permisos de eliminación para thiscontainer.
Para admitir la limpieza automática, configure las duraciones de blobs en el contenedor o use "Bring your own Storage (BYOS)" en lugar de destinationContainerUrl, donde se pueden limpiar los blobs.

puntuaciónMode
punctuationMode string

Modo que se usa para la puntuación.

profanityFilterMode
profanityFilterMode string

Modo de filtrado de palabras soeces.

timeToLive
timeToLive string

Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).

minCount
minCount integer

Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers.

maxCount
maxCount integer

Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers.

candidateLocales
candidateLocales True array of string

Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción.

speechModelMapping
speechModelMapping object

Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas.

Correo electrónico
email string

La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico.

Devoluciones

Eliminación de la transcripción (V3.1)

Elimina la tarea de transcripción especificada.

Parámetros

Nombre Clave Requerido Tipo Description
Id
id True uuid

Identificador de la transcripción.

Obtención de archivos de lista de transcripciones (V3.1)

Obtiene los archivos de la transcripción identificada por el identificador especificado.

Parámetros

Nombre Clave Requerido Tipo Description
Id
id True uuid

Identificador de la transcripción.

Validez de Sas en segundos
sasValidityInSeconds integer

Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS.

Omitir
skip integer

Número de conjuntos de datos que se omitirán.

Arriba
top integer

Número de conjuntos de datos que se incluirán después de omitir.

Filter
filter string

Expresión de filtrado para seleccionar un subconjunto de los archivos disponibles.

  • Propiedades admitidas: name, createdDateTime, kind.
  • Operadores:
    - eq, ne son compatibles con todas las propiedades.
    - gt, ge, lt, le son compatibles con createdDateTime.
    - y, o bien, no se admiten.
  • Ejemplo:filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

Devoluciones

Obtención de transcripciones (V3.1)

Obtiene la transcripción identificada por el identificador especificado.

Parámetros

Nombre Clave Requerido Tipo Description
Id
id True uuid

Identificador de la transcripción.

Devoluciones

Obtener configuraciones regionales admitidas (V3.1)

Obtiene una lista de configuraciones regionales admitidas para las transcripciones sin conexión.

Devoluciones

Nombre Ruta de acceso Tipo Description
array of string

Obtener el archivo de transcripción (V3.1)

Obtiene un archivo específico (identificado con fileId) de una transcripción (identificada con el identificador).

Parámetros

Nombre Clave Requerido Tipo Description
Id
id True uuid

Identificador de la transcripción.

Id. de archivo
fileId True uuid

Identificador del archivo.

Validez de Sas en segundos
sasValidityInSeconds integer

Duración en segundos que una dirección URL de SAS debe ser válida. La duración predeterminada es de 12 horas. Cuando se usa BYOS (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): un valor de 0 significa que se generará un URI de blob sin formato sin token de SAS.

Devoluciones

Body
File

Obtener la lista de transcripciones (V3.1)

Obtiene una lista de transcripciones de la suscripción autenticada.

Parámetros

Nombre Clave Requerido Tipo Description
Omitir
skip integer

Número de conjuntos de datos que se omitirán.

Arriba
top integer

Número de conjuntos de datos que se incluirán después de omitir.

Filter
filter string

Expresión de filtrado para seleccionar un subconjunto de las transcripciones disponibles.

  • Propiedades admitidas: displayName, description, createdDateTime, lastActionDateTime, status, locale.
  • Operadores:
    - eq, ne son compatibles con todas las propiedades.
    - gt, ge, lt, le se admiten para createdDateTime y lastActionDateTime.
    - y, o bien, no se admiten.
  • Ejemplo:filter=createdDateTime gt 2022-02-01T11:00:00Z

Devoluciones

Definiciones

DiarizationProperties

Nombre Ruta de acceso Tipo Description
Altavoces
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

Nombre Ruta de acceso Tipo Description
minCount
minCount integer

Sugerencia para el número mínimo de altavoces para la diarización. Debe ser menor o igual que la propiedad maxSpeakers.

maxCount
maxCount integer

Número máximo de altavoces para la diarización. Debe ser menor que 36 y mayor o igual que la propiedad minSpeakers.

Archivo

Nombre Ruta de acceso Tipo Description
amable
kind FileKind

Tipo de datos.

Enlaces
links FileLinks
createdDateTime
createdDateTime date-time

Hora de creación de este archivo. La marca de tiempo se codifica como formato de fecha y hora ISO 8601 (consulte https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations).

Propiedades
properties FileProperties
nombre
name string

Nombre de este archivo.

FileKind

Tipo de datos.

Tipo de datos.

Nombre Ruta de acceso Tipo Description
URL de contenido
contentUrl uri

Dirección URL para recuperar el contenido de este archivo.

FileProperties

Nombre Ruta de acceso Tipo Description
size
size integer

Tamaño de los datos en bytes.

duration
duration string

La duración en caso de que este archivo sea un archivo de audio. La duración se codifica como ISO 8601duration ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).

LanguageIdentificationProperties

Nombre Ruta de acceso Tipo Description
candidateLocales
candidateLocales array of string

Las configuraciones regionales candidatas para la identificación del idioma (ejemplo ["en-US", "de-DE", "es-ES"]). Se admite un mínimo de 2 y un máximo de 10 configuraciones regionales candidatas, incluida la configuración regional principal para la transcripción.

speechModelMapping
speechModelMapping object

Asignación opcional de configuraciones regionales a entidades del modelo de voz. Si no se da ningún modelo para una configuración regional, se usa el modelo base predeterminado. Las claves deben ser configuraciones regionales contenidas en las configuraciones regionales candidatas, los valores son entidades para los modelos de las configuraciones regionales respectivas.

PaginatedFiles

Nombre Ruta de acceso Tipo Description
values
values array of File

Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa.

@nextLink
@nextLink uri

Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null.

PaginatedTranscriptions

Nombre Ruta de acceso Tipo Description
values
values array of Transcription

Lista de entidades limitadas por los parámetros de consulta pasados "skip" y "top" o sus valores predeterminados. Al recorrer en iteración una lista mediante la paginación y la eliminación de entidades en paralelo, algunas entidades se omitirán en los resultados. Se recomienda crear una lista en el cliente y eliminar después de la captura de la lista completa.

@nextLink
@nextLink uri

Vínculo al siguiente conjunto de resultados paginados si hay más entidades disponibles; de lo contrario, null.

ProfanityFilterMode

Modo de filtrado de palabras soeces.

Modo de filtrado de palabras soeces.

PuntuaciónMode

Modo que se usa para la puntuación.

Modo que se usa para la puntuación.

Transcripción

Nombre Ruta de acceso Tipo Description
contentUrls
contentUrls array of uri

Puede proporcionar una lista de direcciones URL de contenido para obtener archivos de audio para transcribir. Se permiten hasta 1000 direcciones URL. Esta propiedad no se devolverá en una respuesta.

contentContainerUrl
contentContainerUrl uri

Como alternativa, puede proporcionar una dirección URL para un contenedor de blobs de Azure que contenga los archivos de audio. Se permite que un contenedor tenga un tamaño máximo de 5 GB y un número máximo de 10000 blobs. El tamaño máximo de un blob es de 2,5 GB. La SAS de contenedor debe contener permisos "r" (lectura) y "l" (lista). Esta propiedad no se devolverá en una respuesta.

configuración regional
locale string

Configuración regional de los datos contenidos. Si se usa la identificación de idioma, esta configuración regional se usa para transcribir la voz para la que no se pudo detectar ningún idioma.

Nombre para mostrar
displayName string

Nombre para mostrar del objeto.

model
model.self uri

Ubicación de la entidad a la que se hace referencia.

Propiedades
properties TranscriptionProperties

TranscriptionProperties

Nombre Ruta de acceso Tipo Description
diarizationEnabled
diarizationEnabled boolean

Valor que indica si se solicita la diarización (identificación del hablante). El valor predeterminado es false. Si solo este campo se establece en true y el sistema de diarización mejorado no está habilitado especificandoDiarizationProperties, un sistema de diarización básico distinguirá entre hasta dos altavoces. Los cargos noextra se aplican en este caso. El sistema de diarización mejorado proporciona diarización para un intervalo de altavoces que se puede configurar. Se puede configurar en el DiarizationProperties campo . EN DESUSO: el sistema de diarización básica está en desuso y se quitará junto con la configuración de ladiarizationEnabled siguiente versión principal de la API.

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

Valor que indica si se solicitan marcas de tiempo de nivel de palabra. El valor predeterminado esfalse .

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

Valor que indica si se solicitan marcas de tiempo de nivel de palabra para el formulario para mostrar. El valor predeterminado es false.

canales nueva
channels array of integer

Colección de los números de canal solicitados. En el caso predeterminado, se tienen en cuenta los canales 0 y 1.

destinationContainerUrl
destinationContainerUrl uri

El contenedor de destino solicitado.### Comentarios ###When se usa un contenedor de destino en combinación con , timeToLivelos metadatos de atranscription se eliminarán normalmente, pero los datos almacenados en el contenedor de destino, incluidos los resultados de latranscriptión, permanecerán intactos, ya que no se requieren permisos de eliminación para thiscontainer.
Para admitir la limpieza automática, configure las duraciones de blobs en el contenedor o use "Bring your own Storage (BYOS)" en lugar de destinationContainerUrl, donde se pueden limpiar los blobs.

puntuaciónMode
punctuationMode PunctuationMode

Modo que se usa para la puntuación.

profanityFilterMode
profanityFilterMode ProfanityFilterMode

Modo de filtrado de palabras soeces.

timeToLive
timeToLive string

Cuánto tiempo se conservará la transcripción en el sistema después de que se haya completado. Una vez que eltranscription alcanza el tiempo de vida después de la finalización (correcto o erróneo), se eliminará automáticamente. No establecer este valor o establecerlo en 0 deshabilitará la eliminación automática. El valor de supportedduration más largo es de 31 días. La duración se codifica como duración ISO 8601 ("PnYnMnDTnHnMnS", vea https://en.wikipedia.org/wiki/ISO_8601#Durations).

diarización
diarization DiarizationProperties
Identificación del idioma:
languageIdentification LanguageIdentificationProperties
Correo electrónico
email string

La dirección de correo electrónico a la que enviar notificaciones por correo electrónico en caso de que se complete la operación. El valor se quitará después de enviar correctamente el correo electrónico.