Konfigurowanie formatu audio i głosów
Podczas synchronizowania mowy można użyć obiektu SpeechConfig , aby dostosować dźwięk zwracany przez usługę Azure Speech.
Format dźwięku
Usługa Azure Speech obsługuje wiele formatów wyjściowych strumienia audio generowanego przez syntezę mowy. W zależności od konkretnych wymagań można wybrać format na podstawie potrzeb:
- Typ pliku audio
- Częstotliwość próbkowania
- Głębia bitowa
Na przykład następujący kod języka Python ustawia format danych wyjściowych mowy dla wcześniej zdefiniowanego obiektu SpeechConfig o nazwie speech_config:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Aby uzyskać pełną listę obsługiwanych formatów i ich wartości wyliczenia, zobacz dokumentację zestawu Azure Speech SDK.
Głosy
Usługa Azure Speech udostępnia wiele głosów, których można użyć do personalizowania aplikacji z obsługą mowy. Głosy są identyfikowane przez nazwy, które wskazują lokalizację i nazwisko osoby — na przykład en-GB-George.
Poniższy przykładowy kod w języku Python ustawia głos do użycia
speech_config.speech_synthesis_voice_name = "en-GB-George"
Aby uzyskać informacje o głosach, zobacz dokumentację zestawu Azure Speech SDK.