Résumé
Note
Pour plus d’informations, consultez l’onglet Texte et images !
Dans ce module, vous avez exploré les technologies vocales fondamentales qui permettent des interactions vocales naturelles dans les applications IA. Vous avez appris comment la reconnaissance vocale convertit les mots parlés en texte et comment la synthèse vocale génère du contenu audio de type humain à partir d’un contenu écrit.
Tout au long de ce module, vous avez découvert :
Scénarios et applications speech : les technologies Speech transforment les expériences utilisateur dans le service à la clientèle, l’accessibilité, l’IA conversationnelle, la documentation médicale et l’apprentissage électronique. Vous avez exploré comment combiner la reconnaissance vocale et la synthèse crée des conversations bidirectionnel fluides qui se sentent naturelles et réduisent les frictions utilisateur.
Notions de base de la reconnaissance vocale : vous avez examiné le pipeline en six étapes qui convertit l’audio en texte, de la capture d’ondes sonores à la production de transcriptions mises en forme. Vous avez appris comment les fonctionnalités MFCC extraient des modèles explicites de l’audio, comment les modèles acoustiques basés sur un transformateur prédisent les phonèmes et comment les modèles de langage résolvent l’ambiguïté en appliquant des connaissances de vocabulaire et de grammaire.
Principes fondamentaux de la synthèse vocale : vous avez découvert le processus en quatre étapes qui transforme le texte en synthèse vocale naturelle : normalisation du texte, analyse linguistique, génération prosodie et synthèse audio. Vous avez exploré la façon dont la conversion grapheme-à-phonème gère les variations orthographiques, comment les modèles transformateurs prédisent le rythme naturel et l’accentuation, et comment les vocodeurs neuronaux génèrent des formes d’ondes audio haute fidélité.
Conseil / Astuce
Pour plus d’informations, consultez Prise en main de la reconnaissance vocale dans Azure.