Usar a linguagem de marcação de síntese de fala

3 minutos

Embora o Azure Speech SDK permita submeter texto simples para ser sintetizado em fala, o serviço também suporta uma sintaxe baseada em XML para descrever características da fala que pretende gerar. Esta sintaxe SSML (Speech Synthesis Markup Language ) oferece maior controle sobre como a saída falada soa, permitindo que você:

Especifique um estilo de fala, como "animado" ou "alegre" ao usar uma voz neural.
Insira pausas ou silêncio.
Especifique fonemas (pronúncias fonéticas), por exemplo, para pronunciar o texto "SQL" como "sequela".
Ajuste a prosódia da voz (afetando o tom, o timbre e a velocidade de fala).
Use regras comuns de "dizer como", por exemplo, para especificar que uma determinada cadeia de caracteres deve ser expressa como data, hora, número de telefone ou outra forma.
Insira fala ou áudio gravados, por exemplo, para incluir uma mensagem gravada padrão ou simular ruído de fundo.

Por exemplo, considere o seguinte SSML:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" 
                     xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US"> 
    <voice name="en-US-AriaNeural"> 
        <mstts:express-as style="cheerful"> 
          I say tomato 
        </mstts:express-as> 
    </voice> 
    <voice name="en-US-GuyNeural"> 
        I say <phoneme alphabet="sapi" ph="t ao m ae t ow"> tomato </phoneme>. 
        <break strength="weak"/>Lets call the whole thing off! 
    </voice> 
</speak>

Este SSML especifica um diálogo falado entre duas vozes neurais diferentes, como esta:

Ariana (alegre): "Eu digo tomate:
Guy: "Eu digo tomate (pronuncia-se tomátoe) ... Vamos deixar tudo para trás!"

Para enviar uma descrição SSML para o serviço de fala, você pode usar um método apropriado de um objeto SpeechSynthesizer , como este:

speech_synthesizer.speak_ssml('<speak>...');

Para mais informações sobre SSML, consulte a documentação do Azure Speech SDK.

Feedback

Esta página foi útil?