Implantar um modelo multimodal

Concluído

Para lidar com prompts que incluem imagens, você precisa implantar um modelo de IA generativa multimodal - em outras palavras, um modelo que suporte não apenas entrada baseada em texto, mas também entrada baseada em imagem (e, em alguns casos, baseada em áudio). Modelos multimodais disponíveis no Microsoft Foundry incluem (entre outros):

  • Microsoft Phi-4-multimodal-instruir
  • OpenAI gpt-4o
  • OpenAI gpt-4o-mini

Sugestão

Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o artigo do catálogo de modelos e coleções no portal Microsoft Foundry na documentação do Microsoft Foundry.

Testando modelos multimodais com sugestões baseadas em imagem

Depois de implementar um modelo multimodal, pode testá-lo no chat playground do portal Microsoft Foundry.

Captura de tela do playground de bate-papo com um prompt baseado em imagem.

No playground de bate-papo, você pode carregar uma imagem de um arquivo local e adicionar texto à mensagem para obter uma resposta de um modelo multimodal.