Configurer le format audio et les voix

3 minutes

Lors de la synthèse vocale, vous pouvez utiliser un objet SpeechConfig pour personnaliser l’audio retourné par le service Azure Speech.

Format audio

Le service Azure Speech prend en charge plusieurs formats de sortie pour le flux audio généré par la synthèse vocale. Selon vos besoins spécifiques, vous pouvez choisir un format en fonction des besoins requis :

Type de fichier audio
Taux d’échantillonnage
Profondeur de bits

Par exemple, le code Python suivant définit le format de sortie vocale pour un objet SpeechConfig précédemment défini nommé speech_config :

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Pour obtenir la liste complète des formats pris en charge et de leurs valeurs d’énumération, consultez la documentation du Kit de développement logiciel (SDK) Azure Speech.

Voix

Le service Azure Speech fournit plusieurs voix que vous pouvez utiliser pour personnaliser vos applications avec reconnaissance vocale. Les voix sont identifiées par des noms qui indiquent des paramètres régionaux et le nom d’une personne , par exemple en-GB-George.

L’exemple de code Python suivant définit la voix à utiliser

speech_config.speech_synthesis_voice_name = "en-GB-George"

Pour plus d’informations sur les voix, consultez la documentation du Kit de développement logiciel (SDK) Azure Speech.

Commentaires

Cette page a-t-elle été utile ?