Resumo
Neste módulo, você aprendeu sobre modelos de IA generativos habilitados para áudio e como implementar soluções de chat que incluem entrada baseada em áudio.
Os modelos habilitados para áudio permitem que você crie soluções de IA que possam entender o áudio e responder a perguntas ou instruções relacionadas. Além de apenas identificar palavras faladas, alguns modelos também podem usar o raciocínio com base no que ouvem. Por exemplo, eles podem resumir uma mensagem ou avaliar o sentimento do orador.
Dica
Para obter mais informações sobre como trabalhar com modelos multimodal no Microsoft Foundry, consulte Como usar imagem e áudio em conclusões de chat com inferência de modelo de IA do Azure e Início Rápido: Usar fala e áudio em seus chats de IA.