Síntese de fala

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

A síntese de fala, também chamada de TTS (conversão de texto em fala), converte o texto escrito em áudio falado. Você encontra síntese de fala quando assistentes virtuais leem notificações, aplicativos de navegação anunciam instruções ou ferramentas de acessibilidade ajudam os usuários a consumir conteúdo escrito audivelmente.

Os sistemas de síntese de fala processam o texto em quatro estágios distintos. Em cada estágio, a entrada é transformada incrementalmente, desenvolvendo-se até se tornar uma forma de onda de áudio final que soa natural e inteligível.

Normalização de texto: padronizar o texto

A normalização de texto prepara o texto bruto para a pronúncia expandindo abreviações, números e símbolos em formas faladas.

Considere a sentença: "Dr. Smith ordenou 3 itens por US$ 25,50 em 15/12/2023."

Um sistema de normalização converte-o em: "O Doutor Smith pediu três itens por 25 dólares e 50 centavos em 15 de dezembro, dois mil e vinte e três."

As tarefas comuns de normalização incluem:

  • Expandir abreviações ("Dr." torna-se "Doctor", "Inc." torna-se "Incorporated")
  • Converter números em palavras ("3" torna-se "três", "25,50" torna-se "vinte e cinco pontos cinco zero")
  • Lidar com datas e horários ("15/12/2023" torna-se "15 de dezembro, dois mil vinte e três")
  • Símbolos de processamento e caracteres especiais ("$" se torna "dólares", "@" se torna "at")
  • Resolução de homógrafos com base no contexto ("leitura" como tempo presente versus tempo passado)

A normalização de texto impede que o sistema tente pronunciar símbolos ou dígitos brutos, o que produziria uma saída não natural ou incompreensível.

Dica

Domínios diferentes exigem regras de normalização especializadas. O texto médico lida com nomes de medicamentos e dosagens de maneira diferente da forma como o texto financeiro lida com moeda e percentuais.

Análise linguística: mapear texto para phonemes

A análise linguística quebra o texto normalizado em phonemes (as menores unidades de som) e determina como pronunciar cada palavra. O estágio de análise linguística:

  1. Segmenta o texto em palavras e sílabas.
  2. Pesquisa pronúncias de palavras em léxicos (dicionários de pronúncia).
  3. Aplica regras G2P ou modelos neurais para lidar com palavras desconhecidas.
  4. Marca limites sílabos e identifica sílabas estressadas.
  5. Determina o contexto fonético para sons adjacentes.

Conversão de grafema para fonema

A conversão G2P (grapheme-to-phoneme) mapeia letras escritas (grafemes) para sons de pronúncia (phonemes). A ortografia em inglês não indica de forma confiável a pronúncia, portanto, os sistemas G2P usam regras e padrões aprendidos.

Por exemplo:

  • A palavra "embora" é convertida para /θoʊ/
  • A palavra "through" é convertida para "/θruː/"
  • A palavra "tosse" se pronuncia como /kɔːf/.

Cada palavra contém as letras "ough", mas a pronúncia difere drasticamente.

Os sistemas G2P modernos usam redes neurais treinadas em dicionários de pronúncia. Esses modelos aprendem padrões entre ortografia e som, manipulando palavras incomuns, nomes adequados e variações regionais mais normalmente do que sistemas baseados em regras.

Ao determinar phonemes, a análise linguística geralmente usa um modelo de transformador para ajudar a considerar o contexto. Por exemplo, a palavra "read" é pronunciada de forma diferente em "Eu leio livros" (presente do indicativo: /riːd/) versus "Eu li esse livro ontem" (pretérito perfeito: /rɛd/).

Geração de prosódia: determinar a pronúncia

Prosody refere-se aos padrões de ritmo, estresse e entonação que fazem a fala soar natural. A geração de prosódia determina como dizer palavras, não apenas quais sons produzir.

Elementos de prosódia

Prosody abrange várias características vocais:

  • Contornos de tom: padrões de tom crescentes ou decrescentes que sinalizam perguntas versus instruções
  • Duração: quanto tempo manter cada som, criando ênfase ou ritmo natural
  • Intensidade: variações de volume que realçam palavras importantes
  • Pausas: quebras entre frases ou sentenças que ajudam na compreensão
  • Padrões de estresse: quais sílabas recebem ênfase em palavras e frases

Prosody tem um efeito significativo sobre como o texto falado é interpretado. Por exemplo, considere como a seguinte frase muda de significado dependendo de qual sílaba ou palavra é enfatizada:

  • "Eu nunca disse que ele comeu o bolo."
  • "Eu nunca disse que ele comeu o bolo."
  • Eu nunca disse que ele comeu o bolo.
  • "Eu nunca disse que ele comeu o bolo."

Predição de prosódia baseada em Transformer

Sistemas modernos de síntese de fala usam redes neurais transformadoras para prever prosódia. Os transformadores se destacam na compreensão do contexto em frases inteiras, não apenas em palavras adjacentes.

O processo de geração de prosódia:

  1. Codificação de entrada: o transformador recebe a sequência de phoneme com recursos linguísticos (pontuação, parte da fala, estrutura de frases)
  2. Análise contextual: mecanismos de autoatendimento identificam relações entre palavras (por exemplo, quais substantivos fazem referência a um pronome, em que os limites da frase caem)
  3. Previsão de prosódia: o modelo gera valores previstos para tom, duração e energia em cada fonema
  4. Fatores de estilo: o sistema considera o estilo de fala (neutro, expressivo, conversacional) e características do alto-falante

Os transformadores preveem prosódia aprendendo com milhares de horas de fala gravada emparelhada com transcrições. O modelo descobre padrões: as perguntas sobem em tom no final, vírgulas sinalizam breves pausas, palavras enfatizadas se alongam ligeiramente e palavras finais de frase geralmente caem em tom.

Fatores que influenciam as escolhas prosódicas

  • Sintaxe: limites de cláusula indicam onde pausar
  • Semântica: Conceitos importantes recebem ênfase
  • Contexto do discurso: informações ou respostas contrastantes a perguntas podem trazer estresse extra
  • Identidade do locutor: cada voz tem intervalo de tom e taxa de fala características
  • Tom emocional: Excitação, preocupação ou neutralidade moldam padrões prosódicos

As previsões prosódicas criam uma especificação de destino: "Produza o fonema /æ/ a 180 Hz por 80 milissegundos com intensidade moderada e depois pausar por 200 milissegundos".

Importante

A prosódia afeta dramaticamente a naturalidade. A fala robótica geralmente resulta de uma prosódia plana e monótona, não da pronúncia imperfeita de fonemas.

Síntese de fala: gerar áudio

A síntese de fala gera o formato de onda de áudio final com base na sequência de fonemas e especificações de prosódia.

Abordagens de geração de forma de onda

Os sistemas modernos usam vocoders neurais — modelos de aprendizado profundo que geram amostras de áudio diretamente. As arquiteturas populares do vocoder incluem WaveNet, WaveGlow e HiFi-GAN.

O processo de síntese:

  1. Geração de características acústicas: um modelo acústico (frequentemente um transformador) converte fonemas e alvos prosódicos em mel-espectrogramas — representações visuais das frequências sonoras ao longo do tempo
  2. Vocoding: O vocoder neural converte mel-spectrograms em formas de onda de áudio bruto (sequências de valores de amplitude em 16.000 a 48.000 amostras por segundo)
  3. Pós-processamento: o sistema aplica filtragem, normalização ou efeitos de áudio para corresponder às especificações de saída de destino

Observação

O que torna os vocoders neurais eficazes:

  • Alta fidelidade: gerar qualidade de áudio se aproximando de gravações de estúdio
  • Naturalidade: capturar características vocais sutis como a respiração e a qualidade da voz
  • Eficiência: geração em tempo real em hardware moderno (importante para aplicativos interativos)
  • Flexibilidade: adaptar-se a diferentes alto-falantes, idiomas e estilos de fala

O vocoder executa essencialmente o inverso do que o reconhecimento automático de fala faz, enquanto o reconhecimento de fala converte áudio em texto, o vocoder converte representações linguísticas em áudio.

O fluxo de trabalho completo em ação

Quando você solicita síntese de fala para "a consulta do Dr. Chen é às 3 da tarde".

  1. A normalização do texto o expande para "A consulta do Doutor Chen é às três horas da manhã"
  2. A Análise Linguística converte-os em fonemas: /ˈdɑktər ˈtʃɛnz əˈpɔɪntmənt ɪz æt θri əˈklɑk pi ɛm/
  3. A geração de prosódia prevê que o tom aumente ligeiramente em "compromisso" e que haja uma pausa após "é" e ênfase em "três"
  4. A síntese de fala gera um formato de onda de áudio que corresponde a essas especificações

O processo inteiro normalmente é concluído em menos de um segundo no hardware moderno.