Konfigurieren des Audioformats und der Stimmen

Abgeschlossen

Beim Synthesisieren von Spracherkennung können Sie ein SpeechConfig-Objekt verwenden, um die vom Azure Speech-Dienst zurückgegebenen Audiodaten anzupassen.

Audioformat

Der Azure Speech-Dienst unterstützt mehrere Ausgabeformate für den Audiodatenstrom, der von der Sprachsynthese generiert wird. Je nach Ihren spezifischen Anforderungen können Sie ein Format basierend auf den erforderlichen Anforderungen auswählen:

  • Audiodateityp
  • Stichprobenrate
  • Bittiefe

Der folgende Python-Code legt beispielsweise das Sprachausgabeformat für ein zuvor definiertes SpeechConfig-Objekt mit dem Namen speech_config fest:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Eine vollständige Liste der unterstützten Formate und deren Enumerationswerte finden Sie in der Dokumentation zum Azure Speech SDK.

Stimmen

Der Azure Speech-Dienst stellt mehrere Stimmen bereit, mit denen Sie Ihre sprachfähigen Anwendungen personalisieren können. Stimmen werden durch Namen identifiziert, die einen Locale und den Namen einer Person angeben, z. B. en-GB-George.

Der folgende Python-Beispielcode legt die zu verwendende Stimme fest.

speech_config.speech_synthesis_voice_name = "en-GB-George"

Informationen zu Stimmen finden Sie in der Dokumentation zum Azure Speech SDK.