Configurar formato de áudio e vozes
Ao sintetizar fala, pode usar um objeto SpeechConfig para personalizar o áudio que é devolvido pelo serviço Azure Speech.
Formato de áudio
O serviço Azure Speech suporta múltiplos formatos de saída para o fluxo de áudio gerado por síntese de voz. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:
- Tipo de ficheiro de áudio
- Taxa de amostragem
- Profundidade de bits
Por exemplo, o código Python a seguir define o formato de saída de fala para um objeto SpeechConfig definido anteriormente chamado speech_config:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Para uma lista completa de formatos suportados e os seus valores de enumeração, consulte a documentação do Azure Speech SDK.
Vozes
O serviço Azure Speech disponibiliza múltiplas vozes que pode usar para personalizar as suas aplicações habilitadas por voz. As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa - por exemplo en-GB-George.
O código de exemplo Python a seguir define a voz a ser usada
speech_config.speech_synthesis_voice_name = "en-GB-George"
Para informações sobre vozes, consulte a documentação do Azure Speech SDK.