Resumen

1 minuto

En este módulo, ha obtenido información sobre dos aspectos clave de la tecnología de voz: reconocimiento de voz y síntesis. El reconocimiento de voz implica convertir palabras habladas en datos, a menudo transcritos en texto, mediante un modelo acústico y un modelo de lenguaje. Este texto se puede usar con diversos fines, como subtítulos, transcripciones, dictado de notas automatizadas y procesamiento de entradas de usuario. La síntesis de voz, por otro lado, consiste en vocalizar datos, normalmente convirtiendo texto a voz. La voz sintetizada se puede usar para generar respuestas habladas, crear menús de voz, leer correos electrónicos o textos en voz alta y difundir anuncios. También ha aprendido sobre el servicio De voz de IA de Microsoft Azure, que proporciona funcionalidades de reconocimiento de voz y síntesis a través de características como Speech to Text y Text to Speech API.

Las principales conclusiones de este módulo son las funcionalidades del servicio Voz de Azure. Speech to Text API permite la transcripción por lotes o en tiempo real de audio en texto mediante un modelo basado en el modelo de lenguaje universal entrenado por Microsoft. Se puede usar para transcripciones en tiempo real durante presentaciones o demostraciones, o para transcripciones por lotes de archivos de audio almacenados. Text to Speech API convierte la entrada de texto en voz audible, que se puede personalizar con diferentes voces, idiomas y pronunciaciones regionales.

Puede obtener más información sobre Azure Speech en la documentación del servicio.

Comentarios

¿Le ha resultado útil esta página?