Desenvolva um aplicativo de bate-papo baseado em visão
Para desenvolver um aplicativo cliente que se envolve em chats baseados em visão com um modelo multimodal, você pode usar as mesmas técnicas básicas usadas para bate-papos baseados em texto. Você precisa de uma conexão com o ponto de extremidade onde o modelo é implantado e usa esse ponto de extremidade para enviar prompts que consistem em mensagens para o modelo e processar as respostas.
A principal diferença é que os prompts para um bate-papo baseado em visão incluem mensagens de usuário com várias partes que contêm um item de conteúdo de texto (ou áudio , quando suportado) e um item de conteúdo de imagem .
A representação JSON de um prompt que inclui uma mensagem de usuário com várias partes tem esta aparência:
{
"messages": [
{ "role": "system", "content": "You are a helpful assistant." },
{ "role": "user", "content": [
{
"type": "text",
"text": "Describe this picture:"
},
{
"type": "image_url",
"image_url": {
"url": "https://....."
}
}
] }
]
}
O item de conteúdo da imagem pode ser:
- Um URL para um arquivo de imagem em um site.
- Dados de imagem binária
Ao usar dados binários para enviar um arquivo de imagem local, o conteúdo do image_url assume a forma de um valor codificado em base64 em um formato de URL de dados:
{
"type": "image_url",
"image_url": {
"url": "data:image/jpeg;base64,<binary_image_data>"
}
}
Dependendo do tipo de modelo e de onde você o implantou, você pode usar a Inferência de Modelo de IA do Microsoft Azure ou APIs OpenAI para enviar prompts baseados em visão. Essas bibliotecas também fornecem SDKs específicos do idioma que abstraem as APIs REST subjacentes.
No exercício a seguir neste módulo, você pode usar o SDK Python ou .NET para a API de Inferência de Modelo de IA do Azure e a API OpenAI para desenvolver um aplicativo de chat habilitado para visão.