Configurer le format audio et les voix
Lors de la synthèse vocale, vous pouvez utiliser un objet SpeechConfig pour personnaliser l’audio retourné par le service Azure Speech.
Format audio
Le service Azure Speech prend en charge plusieurs formats de sortie pour le flux audio généré par la synthèse vocale. Selon vos besoins spécifiques, vous pouvez choisir un format en fonction des besoins requis :
- Type de fichier audio
- Taux d’échantillonnage
- Profondeur de bits
Par exemple, le code Python suivant définit le format de sortie vocale pour un objet SpeechConfig précédemment défini nommé speech_config :
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Pour obtenir la liste complète des formats pris en charge et de leurs valeurs d’énumération, consultez la documentation du Kit de développement logiciel (SDK) Azure Speech.
Voix
Le service Azure Speech fournit plusieurs voix que vous pouvez utiliser pour personnaliser vos applications avec reconnaissance vocale. Les voix sont identifiées par des noms qui indiquent des paramètres régionaux et le nom d’une personne , par exemple en-GB-George.
L’exemple de code Python suivant définit la voix à utiliser
speech_config.speech_synthesis_voice_name = "en-GB-George"
Pour plus d’informations sur les voix, consultez la documentation du Kit de développement logiciel (SDK) Azure Speech.