Configurar o formato de áudio e as vozes

Concluído

Ao sintetizar a fala, você pode usar um objeto SpeechConfig para personalizar o áudio retornado pelo serviço de Fala do Azure.

Formato de áudio

O serviço de Fala do Azure dá suporte a vários formatos de saída para o fluxo de áudio gerado pela síntese de fala. Dependendo de suas necessidades específicas, você pode escolher um formato com base no necessário:

  • Tipo de arquivo de áudio
  • Taxa de exemplo
  • Profundidade de bits

Por exemplo, o código Python a seguir define o formato de saída de fala para um objeto SpeechConfig definido anteriormente chamado speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Para obter uma lista completa de formatos com suporte e seus valores de enumeração, consulte a documentação do SDK de Fala do Azure.

Vozes

O serviço de Fala do Azure fornece várias vozes que você pode usar para personalizar seus aplicativos habilitados para fala. As vozes são identificadas por nomes que indicam uma localidade e o nome de uma pessoa , por exemplo en-GB-George.

O código de exemplo do Python a seguir define a voz a ser usada

speech_config.speech_synthesis_voice_name = "en-GB-George"

Para obter informações sobre vozes, consulte a documentação do SDK de Fala do Azure.