Configurar formato de áudio e vozes

Concluído

Ao sintetizar fala, pode usar um objeto SpeechConfig para personalizar o áudio que é devolvido pelo serviço Azure Speech.

Formato de áudio

O serviço Azure Speech suporta múltiplos formatos de saída para o fluxo de áudio gerado por síntese de voz. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:

  • Tipo de ficheiro de áudio
  • Taxa de amostragem
  • Profundidade de bits

Por exemplo, o código Python a seguir define o formato de saída de fala para um objeto SpeechConfig definido anteriormente chamado speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Para uma lista completa de formatos suportados e os seus valores de enumeração, consulte a documentação do Azure Speech SDK.

Vozes

O serviço Azure Speech disponibiliza múltiplas vozes que pode usar para personalizar as suas aplicações habilitadas por voz. As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa - por exemplo en-GB-George.

O código de exemplo Python a seguir define a voz a ser usada

speech_config.speech_synthesis_voice_name = "en-GB-George"

Para informações sobre vozes, consulte a documentação do Azure Speech SDK.