Usar a linguagem de marcação de síntese de fala
Embora o Azure Speech SDK permita submeter texto simples para ser sintetizado em fala, o serviço também suporta uma sintaxe baseada em XML para descrever características da fala que pretende gerar. Esta sintaxe SSML (Speech Synthesis Markup Language ) oferece maior controle sobre como a saída falada soa, permitindo que você:
- Especifique um estilo de fala, como "animado" ou "alegre" ao usar uma voz neural.
- Insira pausas ou silêncio.
- Especifique fonemas (pronúncias fonéticas), por exemplo, para pronunciar o texto "SQL" como "sequela".
- Ajuste a prosódia da voz (afetando o tom, o timbre e a velocidade de fala).
- Use regras comuns de "dizer como", por exemplo, para especificar que uma determinada cadeia de caracteres deve ser expressa como data, hora, número de telefone ou outra forma.
- Insira fala ou áudio gravados, por exemplo, para incluir uma mensagem gravada padrão ou simular ruído de fundo.
Por exemplo, considere o seguinte SSML:
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AriaNeural">
<mstts:express-as style="cheerful">
I say tomato
</mstts:express-as>
</voice>
<voice name="en-US-GuyNeural">
I say <phoneme alphabet="sapi" ph="t ao m ae t ow"> tomato </phoneme>.
<break strength="weak"/>Lets call the whole thing off!
</voice>
</speak>
Este SSML especifica um diálogo falado entre duas vozes neurais diferentes, como esta:
- Ariana (alegre): "Eu digo tomate:
- Guy: "Eu digo tomate (pronuncia-se tomátoe) ... Vamos deixar tudo para trás!"
Para enviar uma descrição SSML para o serviço de fala, você pode usar um método apropriado de um objeto SpeechSynthesizer , como este:
speech_synthesizer.speak_ssml('<speak>...');
Para mais informações sobre SSML, consulte a documentação do Azure Speech SDK.