Utiliser l’API de synthèse vocale

Effectué

De même que ses API Reconnaissance de la parole, le service Azure Speech propose d’autres API REST pour la synthèse vocale.

  • L'API de synthèse vocale, qui est la principale façon d’effectuer la synthèse vocale.
  • L’API de synthèse Batch , conçue pour prendre en charge les opérations de traitement par lots qui convertissent de grands volumes de texte en audio, par exemple pour générer un livre audio à partir du texte source.

Vous pouvez en savoir plus sur les API REST dans la documentation de l’API REST Text to speech. Dans la pratique, la plupart des applications interactives avec reconnaissance vocale utilisent le service Azure Speech par le biais d’un SDK spécifique au langage (programmation).

Utilisation du Kit de développement logiciel (SDK) Azure Speech

Comme pour la reconnaissance vocale, dans la pratique, la plupart des applications interactives avec reconnaissance vocale sont créées à l’aide du Kit de développement logiciel (SDK) Azure Speech.

Le modèle d’implémentation de la synthèse vocale est similaire à celui de la reconnaissance vocale :

Diagramme montrant comment un objet SpeechSynthesizer est créé à partir d’un objet SpeechConfig et AudioConfig, et sa méthode SpeakTextAsync est utilisée pour appeler l’API Speech.

  1. Utilisez un objet SpeechConfig pour encapsuler les informations requises pour vous connecter à votre ressource Azure Speech. Plus précisément, son emplacement et sa clé.
  2. Si vous le souhaitez, utilisez un AudioConfig pour définir l’appareil de sortie pour la synthèse vocale. Par défaut, il s’agit du haut-parleur système par défaut, mais vous pouvez également spécifier un fichier audio, ou en définissant explicitement cette valeur sur une valeur Null, vous pouvez traiter l’objet de flux audio retourné directement.
  3. Utilisez SpeechConfig et AudioConfig pour créer un objet SpeechSynthesizer . Cet objet est un client proxy pour l’API Synthèse vocale .
  4. Utilisez les méthodes de l’objet SpeechSynthesizer pour appeler les fonctions d’API sous-jacentes. Par exemple, la méthode SpeakTextAsync() utilise le service Azure Speech pour convertir du texte en audio parlé.
  5. Traitez la réponse du service Azure Speech. Dans le cas de la méthode SpeakTextAsync , le résultat est un objet SpeechSynthesisResult qui contient les propriétés suivantes :
    • AudioData
    • Propriétés
    • Motif
    • Identifiant du Résultat

Lorsque la synthèse vocale a été correctement synthétisée, la propriété Reason est définie sur l’énumération SynthesizingAudioCompleted et la propriété AudioData contient le flux audio (qui, selon audioConfig peut avoir été automatiquement envoyé à un haut-parleur ou un fichier).