Implantar um modelo multimodal
Para lidar com prompts que incluem imagens, você precisa implantar um modelo de IA generativa multimodal - em outras palavras, um modelo que suporte não apenas entrada baseada em texto, mas também entrada baseada em imagem (e, em alguns casos, baseada em áudio). Modelos multimodais disponíveis no Microsoft Foundry incluem (entre outros):
- Microsoft Phi-4-multimodal-instruir
- OpenAI gpt-4o
- OpenAI gpt-4o-mini
Sugestão
Para saber mais sobre os modelos disponíveis no Microsoft Foundry, consulte o artigo do catálogo de modelos e coleções no portal Microsoft Foundry na documentação do Microsoft Foundry.
Testando modelos multimodais com sugestões baseadas em imagem
Depois de implementar um modelo multimodal, pode testá-lo no chat playground do portal Microsoft Foundry.
No playground de bate-papo, você pode carregar uma imagem de um arquivo local e adicionar texto à mensagem para obter uma resposta de um modelo multimodal.