Implantar um modelo multimodal

Concluído

Para lidar com prompts que incluem áudio, você precisa implantar um modelo de IA multimodal – em outras palavras, um modelo que suporta não apenas a entrada baseada em texto, mas também a entrada baseada em áudio. Os modelos multimodal disponíveis no Microsoft Foundry incluem (entre outros):

  • Microsoft Phi-4-multimodal-instruct
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Dica

Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o catálogo de modelos e coleções no artigo do portal do Microsoft Foundry na documentação do Microsoft Foundry.

Testando modelos multimodais com indicativos baseados em áudio

Depois de implantar um modelo multimodal, você pode testá-lo no playground de chat no portal do Microsoft Foundry. Alguns modelos permitem incluir anexos de áudio no playground, carregando um arquivo ou gravando uma mensagem.

Captura de tela do playground de chat com um prompt baseado em áudio.

No playground de chat, você pode carregar um arquivo de áudio local e adicionar texto à mensagem para provocar uma resposta de um modelo multimodal.