Reconnaissance vocale
Note
Pour plus d’informations, consultez l’onglet Texte et images !
La reconnaissance vocale, également appelée reconnaissance vocale, permet aux applications de convertir la langue parlée en texte écrit. Le parcours de l’onde sonore au texte implique six étapes coordonnées : capture audio, préparation des fonctionnalités, modélisation des modèles acoustiques, application de règles de langage, décodage des mots les plus probables et affinement de la sortie finale.
Capture audio : convertir l’audio analogique en audio numérique
La reconnaissance vocale commence lorsqu’un microphone convertit les ondes sonores en signal numérique. Le système échantillonne l'audio analogique des milliers de fois par seconde — généralement 16 000 échantillons par seconde (16 kHz) pour les applications vocales — et stocke chaque mesure sous forme de valeur numérique.
Note
Pourquoi le taux d’échantillonnage est important :
- Les taux plus élevés (comme 44,1 kHz pour la musique) capturent plus de détails, mais nécessitent davantage de traitement.
- La reconnaissance vocale équilibre la clarté et l’efficacité à 8 kHz à 16 kHz.
- Le bruit d’arrière-plan, la qualité du microphone et la distance du haut-parleur ont un impact direct sur la précision en aval.
Avant de passer à la phase suivante, le système applique souvent des filtres de base pour supprimer des hums, des clics ou d’autres bruits d’arrière-plan susceptibles de confondre le modèle.
Prétraitement : Extraire des fonctionnalités significatives
Les échantillons audio bruts contiennent trop d’informations pour une reconnaissance efficace des modèles. Le prétraitement transforme la forme d’onde en une représentation compacte qui met en évidence les caractéristiques vocales tout en ignorant les détails non pertinents comme le volume absolu.
Coefficients Cepstraux en Fréquence Mel (MFCC)
MFCC est la technique d’extraction de caractéristiques la plus courante dans la reconnaissance vocale. Il imite la façon dont l’oreille humaine perçoit le son en mettant en évidence les fréquences où l’énergie vocale se concentre et compresse des plages moins importantes.
Fonctionnement de MFCC :
- Divisez l’audio en trames : Fractionnez le signal en fenêtres superposées de 20 à 30 millisecondes.
- Appliquer la transformation de Fourier : Convertissez chaque trame du domaine temporel en domaine fréquentiel, révélant quelles tonalités sont présentes.
- Mapper à l’échelle Mel : ajustez les canaux de fréquence pour qu’ils correspondent à la sensibilité auditive humaine. Nous faisons une meilleure distinction des son graves par rapport aux aigus.
- Coefficients d’extraction : Calculez un petit ensemble de nombres (souvent 13 coefficients) qui résument la forme spectrale de chaque cadre.
Le résultat est une séquence de vecteurs de caractéristiques (un par trame) qui capture l'apparence sonore de l'audio sans stocker chaque échantillon. Ces vecteurs deviennent l’entrée pour la modélisation acoustique.
Les vecteurs sont extraits en colonnes, avec chaque vecteur représentant les 13 valeurs de coefficient de caractéristique MFCC pour chaque période :
Frame 1: [ -113.2, 45.3, 12.1, -3.4, 7.8, ... ] # 13 coefficients
Frame 2: [ -112.8, 44.7, 11.8, -3.1, 7.5, ... ]
Frame 3: [ -110.5, 43.9, 11.5, -2.9, 7.3, ... ]
Modélisation acoustique : Reconnaître les phonèmes
Les modèles acoustiques apprennent la relation entre les fonctionnalités audio et les phonèmes , les plus petites unités de son qui distinguent les mots. L’anglais utilise environ 44 phonèmes ; par exemple, le mot « chat » comprend trois phonèmes : /k/, /æ/, et /t/.
Des fonctionnalités aux phonèmes
Les modèles acoustiques modernes utilisent des architectures de transformateur, un type de réseau d’apprentissage profond qui excelle dans les tâches de séquence. Le transformateur traite les vecteurs de caractéristiques MFCC et prédit quel phonème est le plus probable à chaque moment dans le temps.
Les modèles transformateurs obtiennent une prédiction phonème efficace via :
- Mécanisme d’attention : Le modèle examine les cadres environnants pour résoudre l’ambiguïté. Par exemple, le phonème /t/ sonne différent au début de « top » par rapport à la fin de « bat ».
- Traitement parallèle : Contrairement aux modèles récurrents plus anciens, les transformateurs analysent simultanément plusieurs images, améliorant ainsi la vitesse et la précision.
- Prédictions contextualisées : Le réseau apprend que certaines séquences phonèmes se produisent fréquemment dans la parole naturelle.
La sortie de la modélisation acoustique est une distribution de probabilité sur des phonèmes pour chaque trame audio. Par exemple, le cadre 42 peut afficher 80 % de confiance pour /æ/, 15 % pour /ɛ/ et 5 % pour d'autres phonèmes.
Note
Les phonèmes sont spécifiques à la langue. Un modèle formé sur des phonèmes anglais ne peut pas reconnaître les tonalités mandarines sans réentraîner.
Modélisation du langage : prédire des séquences de mots
Les prédictions phonèmes seules ne garantissent pas une transcription précise. Le modèle acoustique peut confondre « leur » et « là » parce qu’ils partagent des phonèmes identiques. Les modèles linguistiques résolvent l’ambiguïté en appliquant des connaissances sur le vocabulaire, la grammaire et les modèles de mots courants. Voici quelques façons dont le modèle guide la prédiction de séquence de mots :
- Modèles statistiques : le modèle sait que « Le temps est agréable » apparaît plus souvent dans les données d’apprentissage que « Le tems est agréable. »
- Sensibilisation au contexte : Après avoir entendu « J’ai besoin de », le modèle attend des verbes comme « aller » ou « finir », et non des noms comme « table ».
- Adaptation du domaine : Les modèles de langage personnalisés formés sur la terminologie médicale ou juridique améliorent la précision des scénarios spécialisés.
Décodage : Sélectionner la meilleure hypothèse de texte
Les algorithmes de décodage recherchent des millions de séquences de mots possibles pour trouver la transcription qui correspond le mieux aux prédictions de modèles acoustiques et linguistiques. Cette étape équilibre deux objectifs concurrents : rester fidèle au signal audio tout en produisant du texte lisible et grammaticalement correct.
Décodage par recherche de faisceaux :
La technique la plus courante, la recherche par faisceau, conserve une liste abrégée (le « faisceau ») des transcriptions partielles les mieux notées, alors qu'elle traite chaque trame audio. À chaque étape, il étend chaque hypothèse au mot suivant le plus probable, réduit les parcours à faible score et conserve uniquement les meilleurs candidats.
Pour un énoncé de trois secondes, il est possible que le décodeur évalue des milliers d’hypothèses avant de sélectionner « Veuillez envoyer le rapport avant vendredi » plutôt que des alternatives telles que « Veuillez envoyer le rapport avent vendredi ».
Caution
Le décodage est gourmand en calcul. Les applications en temps réel équilibrent la précision et la latence en limitant la largeur du faisceau et la profondeur d’hypothèse.
Post-traitement : affiner la sortie
Le décodeur produit du texte brut qui nécessite souvent un nettoyage avant la présentation. Le post-traitement applique des règles de mise en forme et des corrections pour améliorer la lisibilité et la précision.
Tâches de post-traitement courantes :
- Capitalisation: Convertissez « hello my name is sam » en « Hello my name is Sam ».
- Restauration de la ponctuation : Ajoutez des points, des virgules et des points d’interrogation basés sur la prosodie et la grammaire.
- Mise en forme des nombres : Remplacez « un millier de vingt trois » par « 1 023 ».
- Filtrage de la profanité : Masquez ou supprimez les mots inappropriés si nécessaire par la stratégie.
- Normalisation de texte inverse : Convertissez des formes parlées comme « trois p m » en « 3 pm ».
- Score de confiance : Marquer des mots à faible confiance pour l’examen humain dans les applications critiques telles que la transcription médicale.
Azure Speech retourne la transcription finale, ainsi que les métadonnées telles que les horodatages au niveau du mot et les scores de confiance, ce qui permet à votre application de mettre en évidence des segments incertains ou de déclencher des comportements de secours.
Comment le pipeline fonctionne ensemble
Chaque étape s’appuie sur la précédente :
- La capture audio fournit le signal brut.
- Le prétraitement extrait les fonctionnalités MFCC qui mettent en évidence les modèles de reconnaissance vocale.
- La modélisation acoustique prédit les probabilités phonèmes à l’aide de réseaux transformateurs.
- La modélisation du langage applique le vocabulaire et les connaissances grammaticales.
- Décodage recherche la meilleure séquence de mots.
- Le post-traitement met en forme le texte des lecteurs humains.
En séparant les préoccupations, les systèmes de reconnaissance vocale moderne obtiennent une haute précision entre les langues, les accents et les conditions acoustiques. Lorsque la qualité de la transcription n’est pas satisfaisante, vous pouvez souvent identifier le problème à une étape (une capture audio médiocre, un entraînement insuffisant du modèle de langage, ou un post-traitement trop agressif) et ajuster en conséquence.