Konfigurieren des Audioformats und der Stimmen
Beim Synthesisieren von Spracherkennung können Sie ein SpeechConfig-Objekt verwenden, um die vom Azure Speech-Dienst zurückgegebenen Audiodaten anzupassen.
Audioformat
Der Azure Speech-Dienst unterstützt mehrere Ausgabeformate für den Audiodatenstrom, der von der Sprachsynthese generiert wird. Je nach Ihren spezifischen Anforderungen können Sie ein Format basierend auf den erforderlichen Anforderungen auswählen:
- Audiodateityp
- Stichprobenrate
- Bittiefe
Der folgende Python-Code legt beispielsweise das Sprachausgabeformat für ein zuvor definiertes SpeechConfig-Objekt mit dem Namen speech_config fest:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Eine vollständige Liste der unterstützten Formate und deren Enumerationswerte finden Sie in der Dokumentation zum Azure Speech SDK.
Stimmen
Der Azure Speech-Dienst stellt mehrere Stimmen bereit, mit denen Sie Ihre sprachfähigen Anwendungen personalisieren können. Stimmen werden durch Namen identifiziert, die einen Locale und den Namen einer Person angeben, z. B. en-GB-George.
Der folgende Python-Beispielcode legt die zu verwendende Stimme fest.
speech_config.speech_synthesis_voice_name = "en-GB-George"
Informationen zu Stimmen finden Sie in der Dokumentation zum Azure Speech SDK.