Discurso

Completado

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

Las funcionalidades de voz en aplicaciones y agentes de inteligencia artificial permiten a los usuarios interactuar con ellos a través del lenguaje hablado.

Reconocimiento de voz

Diagrama de la entrada hablada de un usuario que se convierte en texto.

El reconocimiento de voz es la capacidad de la inteligencia artificial de "escuchar" e interpretar la voz. Normalmente, esta funcionalidad tiene la forma de conversión de voz en texto (donde la señal de audio para la voz se transcribe en texto).

Síntesis de voz

Diagrama de texto que se convierte en voz audible.

La síntesis de voz es la capacidad de la IA de transformar palabras en lenguaje hablado. Normalmente, esta funcionalidad adopta la forma de texto a voz en la que la información en formato de texto se convierte en una señal audible.

La tecnología de voz de IA está evolucionando rápidamente para controlar los desafíos, como ignorar el ruido de fondo, detectar interrupciones y generar voces cada vez más expresivas y similares a las humanas.

Escenarios de voz de IA

Entre los usos comunes de las tecnologías de voz de IA se incluyen:

  • Agentes de inteligencia artificial que comprenden la entrada hablada, realizan tareas y responden con los resultados hablados.
  • Transcripción automatizada de llamadas o reuniones.
  • Automatización de descripciones de audio de vídeo o texto.
  • Traducción automatizada de voz entre idiomas.