Resumo

Concluído

Neste módulo, você aprendeu sobre dois aspectos-chave da tecnologia de voz: reconhecimento de fala e síntese. O reconhecimento de fala envolve a conversão de palavras faladas em dados, muitas vezes transcritos em texto, usando um modelo acústico e um modelo de linguagem. Este texto pode ser usado para vários fins, como legendas ocultas, transcrições, ditado de notas automatizado e processamento de entrada do usuário. A síntese de fala, por outro lado, é sobre vocalizar dados, normalmente convertendo texto em fala. A fala sintetizada pode ser usada para gerar respostas faladas, criar menus de voz, ler e-mails ou textos em voz alta e transmitir anúncios. Você também aprendeu sobre o serviço AI Speech do Microsoft Azure, que fornece recursos de reconhecimento e síntese de fala por meio de recursos como APIs de Fala para Texto e Texto para Fala.

As principais conclusões deste módulo são as funcionalidades do serviço Azure Speech. A API Speech to Text permite a transcrição em tempo real ou em lote de áudio em texto, usando um modelo baseado no Universal Language Model treinado pela Microsoft. Ele pode ser usado para transcrições em tempo real durante apresentações ou demonstrações, ou para transcrições em lote de arquivos de áudio armazenados. A API Text to Speech converte a entrada de texto em fala audível, que pode ser personalizada com diferentes vozes, idiomas e pronúncias regionais.

Pode saber mais sobre Azure Speech na documentação do serviço.