Konfigurowanie formatu audio i głosów

Ukończone

Podczas synchronizowania mowy można użyć obiektu SpeechConfig , aby dostosować dźwięk zwracany przez usługę Azure Speech.

Format dźwięku

Usługa Azure Speech obsługuje wiele formatów wyjściowych strumienia audio generowanego przez syntezę mowy. W zależności od konkretnych wymagań można wybrać format na podstawie potrzeb:

  • Typ pliku audio
  • Częstotliwość próbkowania
  • Głębia bitowa

Na przykład następujący kod języka Python ustawia format danych wyjściowych mowy dla wcześniej zdefiniowanego obiektu SpeechConfig o nazwie speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Aby uzyskać pełną listę obsługiwanych formatów i ich wartości wyliczenia, zobacz dokumentację zestawu Azure Speech SDK.

Głosy

Usługa Azure Speech udostępnia wiele głosów, których można użyć do personalizowania aplikacji z obsługą mowy. Głosy są identyfikowane przez nazwy, które wskazują lokalizację i nazwisko osoby — na przykład en-GB-George.

Poniższy przykładowy kod w języku Python ustawia głos do użycia

speech_config.speech_synthesis_voice_name = "en-GB-George"

Aby uzyskać informacje o głosach, zobacz dokumentację zestawu Azure Speech SDK.