Resumo

1 minuto

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Neste módulo, você explorou as tecnologias de fala fundamentais que permitem interações de voz naturais em aplicativos de IA. Você aprendeu como o reconhecimento de fala converte palavras faladas em texto e como a síntese de fala gera áudio humano a partir de conteúdo escrito.

Ao longo deste módulo, você descobriu:

Cenários de fala e aplicativos: as tecnologias de fala transformam experiências do usuário no atendimento ao cliente, acessibilidade, IA de conversa, documentação de saúde e aprendizado eletrônico. Você explorou como combinar reconhecimento de fala e síntese cria conversas bidirecionais fluidas que parecem naturais e reduzem o atrito do usuário.
Conceitos básicos de reconhecimento de fala: você examinou o pipeline de seis estágios que converte áudio em texto, desde a captura de ondas sonoras até a produção de transcrições formatadas. Você aprendeu como os recursos do MFCC extraem padrões significativos do áudio, como modelos acústicos baseados em transformador preveem phonemes e como os modelos de linguagem resolvem a ambiguidade aplicando vocabulário e conhecimento gramatical.
Conceitos básicos de síntese de fala: você descobriu o processo de quatro estágios que transforma o texto em fala natural: normalização de texto, análise linguística, geração prosódia e síntese de áudio. Você explorou como a conversão grapheme-to-phoneme lida com variações ortográficas, como os modelos de transformador preveem ritmo e ênfase naturais e como os vocoders neurais geram formas de onda de áudio de alta fidelidade.

Dica

Para obter mais informações, consulte Introdução à fala no Azure.

Comentários

Esta página foi útil?