Resumo

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Neste módulo, você explorou as tecnologias fundamentais de fala que permitem interações naturais de voz em aplicações de IA. Você aprendeu como o reconhecimento de fala converte palavras faladas em texto e como a síntese de fala gera áudio semelhante ao humano a partir de conteúdo escrito.

Ao longo deste módulo, você descobriu:

  • Cenários e aplicativos de fala: as tecnologias de fala transformam as experiências do usuário em atendimento ao cliente, acessibilidade, IA conversacional, documentação de saúde e e-learning. Você explorou como a combinação de reconhecimento e síntese de fala cria conversas bidirecionais fluidas que parecem naturais e reduzem o atrito do usuário.

  • Fundamentos do reconhecimento de fala: você examinou o pipeline de seis estágios que converte áudio em texto — desde a captura de ondas sonoras até a produção de transcrições formatadas. Você aprendeu como os recursos do MFCC extraem padrões significativos do áudio, como os modelos acústicos baseados em transformadores predizem fonemas e como os modelos de linguagem resolvem a ambiguidade aplicando vocabulário e conhecimento gramatical.

  • Fundamentos da síntese de fala: Você descobriu o processo de quatro estágios que transforma texto em fala natural - normalização de texto, análise linguística, geração de prosódia e síntese de áudio. Você explorou como a conversão grafema-fonema lida com variações ortográficas, como os modelos de transformadores predizem o ritmo natural e a ênfase, e como os vocoders neurais geram formas de onda de áudio de alta fidelidade.

Sugestão

Para obter mais informações, consulte Introdução à fala no Azure.