オーディオ形式と音声を構成する
音声を合成するときに、 SpeechConfig オブジェクトを使用して、Azure Speech サービスによって返されるオーディオをカスタマイズできます。
オーディオ形式
Azure Speech サービスでは、音声合成によって生成されるオーディオ ストリームに対して複数の出力形式がサポートされています。 特定のニーズに応じて、必要に応じて形式を選択できます。
- オーディオ ファイルの種類
- サンプル レート
- ビット深度
たとえば、次の Python コードは、speech_configという名前の以前に定義された SpeechConfig オブジェクトの音声出力形式を設定します。
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
サポートされている形式とその列挙値の完全な一覧については、 Azure Speech SDK のドキュメントを参照してください。
音声
Azure Speech サービスには、音声対応アプリケーションをカスタマイズするために使用できる複数の音声が用意されています。 音声は、ロケールとユーザーの名前を示す名前 ( en-GB-Georgeなど) によって識別されます。
次の Python コード例では、使用する音声を設定します
speech_config.speech_synthesis_voice_name = "en-GB-George"
音声の詳細については、 Azure Speech SDK のドキュメントを参照してください。