Introducción a la voz en Azure
Microsoft Azure ofrece funcionalidades de reconocimiento de voz y síntesis a través del servicio Voz de Azure , que admite muchas funcionalidades, entre las que se incluyen:
- Speech to Text
- Texto a voz
- Traducción de voz
Conversión de voz en texto
Puede usar Azure Speech to Text API para realizar la transcripción por lotes o en tiempo real del audio en un formato de texto. La fuente de audio de la transcripción puede ser una transmisión de audio en tiempo real desde un micrófono o un archivo de audio.
Speech to text API de Azure AI se basa en el modelo de lenguaje universal de Microsoft. Los datos del modelo son propiedad de Microsoft y se implementan en Azure. El modelo está optimizado para dos escenarios: conversacional y dictado. También puede crear y entrenar sus propios modelos personalizados, como acústica, lenguaje y pronunciación si los modelos creados previamente de Microsoft no proporcionan lo que necesita.
Transcripción en tiempo real: la voz en tiempo real en texto le permite transcribir secuencias de audio a texto. Puede usar la transcripción en tiempo real para presentaciones, demostraciones o cualquier otra situación en la que una persona hable.
Para que la transcripción en tiempo real funcione, la aplicación debe escuchar audio entrante desde un micrófono u otro origen de entrada de audio, como un archivo de audio. El código de la aplicación transmite el audio al servicio, que devuelve el texto transcrito.
Transcripción de Batch: No todos los escenarios de Speech to text son en tiempo real. Es posible que tenga grabaciones de audio almacenadas en un recurso compartido de archivos, en un servidor remoto o incluso en almacenamiento de Azure. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.
La transcripción por lotes se debe ejecutar de forma asincrónica porque los trabajos por lotes se programan en función de la mejor opción. Normalmente, un trabajo comienza a ejecutarse en cuestión de minutos a partir de la solicitud, pero no hay ninguna estimación para cuando un trabajo cambia al estado en ejecución.
Texto a voz
La API Text to Speech le permite convertir la entrada de texto en voz audible, que puede reproducirse directamente a través del altavoz de un equipo o escribirse en un archivo de audio.
Voces de síntesis de voz: Cuando usa la API Text to Speech, puede especificar la voz que se usará para vocalizar el texto. Esta opción le ofrece la flexibilidad de personalizar la solución de síntesis de voz y darle un carácter concreto.
El servicio incluye varias voces predefinidas compatibles con varios lenguajes y pronunciación regional, incluidas las voces neuronales que aprovechan las redes neuronales para superar las limitaciones comunes de la síntesis de voz con respecto a la entonación, lo que da lugar a una voz de sonido más natural. También puede desarrollar voces personalizadas y usarlas con el texto a speech API.
Traducción de voz
Azure Speech Translation es una característica del servicio De voz de Azure. Azure Speech Translation permite la traducción en tiempo real del idioma hablado tomando entradas de secuencias de audio y devolviendo texto en un idioma especificado. Funciona convirtiendo primero la voz en texto mediante el reconocimiento automático de voz (ASR) y, a continuación, traduce el texto reconocido en uno o varios idiomas de destino mediante la traducción automática. El servicio admite una amplia gama de idiomas de origen y destino y puede entregar traducciones como texto o voz sintetizada. Los desarrolladores pueden integrar esta funcionalidad en aplicaciones mediante API REST o SDK. Estas aplicaciones funcionan bien en escenarios como reuniones multilingües, subtítulos de eventos en directo o asistencia al cliente global.