Usar a linguagem de marcação de síntese de fala

Concluído

Embora o Azure Speech SDK permita submeter texto simples para ser sintetizado em fala, o serviço também suporta uma sintaxe baseada em XML para descrever características da fala que pretende gerar. Esta sintaxe SSML (Speech Synthesis Markup Language ) oferece maior controle sobre como a saída falada soa, permitindo que você:

  • Especifique um estilo de fala, como "animado" ou "alegre" ao usar uma voz neural.
  • Insira pausas ou silêncio.
  • Especifique fonemas (pronúncias fonéticas), por exemplo, para pronunciar o texto "SQL" como "sequela".
  • Ajuste a prosódia da voz (afetando o tom, o timbre e a velocidade de fala).
  • Use regras comuns de "dizer como", por exemplo, para especificar que uma determinada cadeia de caracteres deve ser expressa como data, hora, número de telefone ou outra forma.
  • Insira fala ou áudio gravados, por exemplo, para incluir uma mensagem gravada padrão ou simular ruído de fundo.

Por exemplo, considere o seguinte SSML:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
                     xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US"> 
    <voice name="en-US-AriaNeural"> 
        <mstts:express-as style="cheerful"> 
          I say tomato 
        </mstts:express-as> 
    </voice> 
    <voice name="en-US-GuyNeural"> 
        I say <phoneme alphabet="sapi" ph="t ao m ae t ow"> tomato </phoneme>. 
        <break strength="weak"/>Lets call the whole thing off! 
    </voice> 
</speak>

Este SSML especifica um diálogo falado entre duas vozes neurais diferentes, como esta:

  • Ariana (alegre): "Eu digo tomate:
  • Guy: "Eu digo tomate (pronuncia-se tomátoe) ... Vamos deixar tudo para trás!"

Para enviar uma descrição SSML para o serviço de fala, você pode usar um método apropriado de um objeto SpeechSynthesizer , como este:

speech_synthesizer.speak_ssml('<speak>...');

Para mais informações sobre SSML, consulte a documentação do Azure Speech SDK.