Implantar um modelo multimodal
Para lidar com prompts que incluem áudio, você precisa implantar um modelo de IA generativa multimodal - em outras palavras, um modelo que suporte não apenas entrada baseada em texto, mas também entrada baseada em áudio. Modelos multimodais disponíveis no Microsoft Foundry incluem (entre outros):
- Microsoft Phi-4-multimodal-instruir
- OpenAI gpt-4o
- OpenAI gpt-4o-mini
Sugestão
Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o artigo do catálogo de modelos e coleções no portal Microsoft Foundry na documentação do Microsoft Foundry.
Testando modelos multimodais com prompts baseados em áudio
Depois de implementar um modelo multimodal, pode testá-lo no chat playground do portal Microsoft Foundry. Alguns modelos permitem incluir anexos de áudio no playground, seja carregando um arquivo ou gravando uma mensagem.
No playground de bate-papo, você pode carregar um arquivo de áudio local e adicionar texto à mensagem para obter uma resposta de um modelo multimodal.