Resumo

Concluído

Neste módulo, você aprendeu sobre dois aspectos fundamentais da tecnologia de voz: reconhecimento de fala e sintetização de voz. O reconhecimento de fala envolve a conversão de palavras faladas em dados, geralmente transcritas em texto, usando um modelo acústico e um modelo de linguagem. Esse texto pode ser usado para várias finalidades, como legendas ocultas, transcrições, ditado automático de notas e processamento de entrada do usuário. A sintetização de voz, por outro lado, é sobre vocalizar dados, normalmente fazendo a conversão de texto em fala. A voz sintetizada pode ser usada para gerar respostas faladas, criar menus de voz, ler emails ou textos em voz alta e transmitir comunicados. Você também aprendeu sobre o serviço de IA de Fala do Microsoft Azure, que fornece recursos de reconhecimento de fala e síntese de fala por meio de funcionalidades como APIs de Conversão de Fala em Texto e de Conversão de Texto em Fala.

Os principais pontos deste módulo são as funcionalidades do serviço de Reconhecimento de Fala do Azure. A API de Conversão de Fala em Texto permite a transcrição em tempo real ou em lote de áudio em texto, usando um modelo baseado no Modelo de Linguagem Universal treinado pela Microsoft. Ele pode ser usado para transcrições em tempo real durante apresentações ou demonstrações ou para transcrições em lote de arquivos de áudio armazenados. A API de Texto em Fala converte a entrada de texto em fala audível, que pode ser personalizada com diferentes vozes, idiomas e pronúncias regionais.

Você pode saber mais sobre a Fala do Azure na documentação do serviço.