Utiliser l’API Azure de Transcription Vocale

Effectué

Le service Azure Speech prend en charge la reconnaissance vocale via les fonctionnalités suivantes :

  • Transcription en temps réel : transcription instantanée avec des résultats intermédiaires pour les entrées audio en direct.
  • Transcription rapide : sortie synchrone la plus rapide pour les situations avec une latence prévisible.
  • Transcription par lots : traitement efficace pour de grands volumes d’audio préenregistré.
  • Reconnaissance vocale personnalisée : modèles avec une précision améliorée pour des domaines et des conditions spécifiques.

Utilisation du Kit de développement logiciel (SDK) Azure Speech

Bien que les détails spécifiques varient, en fonction du SDK utilisé (Python, C#, et ainsi de suite) ; il existe un modèle cohérent pour l’utilisation de l’API Reconnaissance vocale :

Diagramme montrant comment un objet SpeechRecognizer est créé à partir d’un objet SpeechConfig et AudioConfig, et sa méthode RecognizeOnceAsync est utilisée pour appeler l’API Speech.

  1. Utilisez un objet SpeechConfig pour encapsuler les informations requises pour vous connecter à votre ressource Azure Speech. Plus précisément, son emplacement et sa clé.
  2. Si vous le souhaitez, utilisez un AudioConfig pour définir la source d’entrée de l’audio à transcrire. Par défaut, il s’agit du microphone système par défaut, mais vous pouvez également spécifier un fichier audio.
  3. Utilisez SpeechConfig et AudioConfig pour créer un objet SpeechRecognizer . Cet objet est un client proxy pour l’API Reconnaissance vocale .
  4. Utilisez les méthodes de l’objet SpeechRecognizer pour appeler les fonctions d’API sous-jacentes. Par exemple, la méthode RecognizeOnceAsync() utilise le service Azure Speech pour transcrire de façon asynchrone un seul énoncé parlé.
  5. Traitez la réponse du service Azure Speech. Dans le cas de la méthode RecognizeOnceAsync(), le résultat est un objet SpeechRecognitionResult qui inclut les propriétés suivantes :
    • Durée
    • OffsetInTicks
    • Propriétés
    • Motif
    • Identifiant du Résultat
    • Texto

Si l’opération a réussi, la propriété Reason a la valeur énumérée RecognizedSpeech et la propriété Text contient la transcription. D’autres valeurs possibles pour Result incluent NoMatch (indiquant que l’audio a été correctement analysé, mais qu’aucune voix n’a été reconnue) ou Canceled, indiquant qu’une erreur s’est produite (auquel cas, vous pouvez vérifier la collection Properties pour la propriété CancellationReason pour déterminer ce qui s’est passé.