Discours
Note
Pour plus d’informations, consultez l’onglet Texte et images !
Les fonctionnalités vocales dans les applications et agents IA permettent aux utilisateurs d’interagir avec eux par le biais d’un langage parlé.
Reconnaissance vocale
La reconnaissance vocale est la capacité de l’IA à « entendre » et à interpréter la parole. En règle générale, cette fonctionnalité prend la forme de la reconnaissance vocale (où le signal audio de la parole est transcrit en texte).
Synthèse vocale
La synthèse vocale est la capacité de l’IA à vocaliser les mots comme langage parlé. Cette fonctionnalité prend généralement la forme d’une synthèse vocale dans laquelle les informations au format texte sont converties en signal audible.
La technologie vocale IA évolue rapidement pour gérer les défis comme ignorer le bruit de fond, détecter les interruptions et générer des voix de plus en plus expressives et humaines.
Scénarios de reconnaissance vocale IA
Les utilisations courantes des technologies vocales IA sont les suivantes :
- Agents IA qui comprennent les entrées parlées, effectuent des tâches et répondent avec des résultats parlés.
- Transcription automatisée d’appels ou de réunions.
- Automatisation des descriptions audio de la vidéo ou du texte.
- Traduction vocale automatisée entre les langues.