Implantar um modelo em um ponto de extremidade
Ao desenvolver um aplicativo de IA generativa, você precisa integrar modelos de linguagem em seu aplicativo. Para poder usar um modelo de linguagem, você precisa implantar o modelo. Vamos explorar como implementar modelos de linguagem no Microsoft Foundry, depois de percebermos primeiro por que deve implementar um modelo.
Por que implantar um modelo?
Você treina um modelo para gerar saída com base em alguma entrada. Para obter valor do seu modelo, você precisa de uma solução que lhe permita enviar entrada para o modelo, que o modelo processa, após o que a saída é visualizada para você.
Com aplicativos de IA generativa, o tipo mais comum de solução é um aplicativo de bate-papo que espera que uma pergunta do usuário, que o modelo processa, gere uma resposta adequada. A resposta é então visualizada para o usuário como uma resposta à sua pergunta.
Você pode integrar um modelo de linguagem com um aplicativo de chat implantando o modelo em um ponto de extremidade. Um ponto de extremidade é uma URL específica onde um modelo ou serviço implantado pode ser acessado. Cada implantação de modelo normalmente tem seu próprio ponto de extremidade exclusivo, que permite que diferentes aplicativos se comuniquem com o modelo por meio de uma API (Application Programming Interface).
Quando um usuário faz uma pergunta:
- Um pedido de API é enviado para o endpoint.
- O ponto de extremidade especifica o modelo que processa a solicitação.
- O resultado é enviado de volta ao aplicativo por meio de uma resposta da API.
Agora que percebe porque quer implementar um modelo, vamos explorar as opções de implementação com o Microsoft Foundry.
Implementar um modelo de linguagem com o Microsoft Foundry
Quando implementa um modelo de linguagem com o Microsoft Foundry, tem vários tipos disponíveis, que dependem do modelo que pretende implementar.
As opções de implantação incluem:
- Implementação padrão: Os modelos são alojados no recurso do projeto Microsoft Foundry.
- Computação serverless: Os modelos são alojados em endpoints serverless dedicados geridos pela Microsoft num projeto hub Microsoft Foundry.
- Computação gerida: Os modelos são alojados em imagens de máquinas virtuais geridas num projeto hub da Microsoft Foundry.
O custo associado depende do tipo de modelo implantado, da opção de implantação escolhida e do que está fazendo com o modelo:
| Implementação padrão | Computação sem servidor | Computação sob gestão | |
|---|---|---|---|
| Modelos suportados | Modelos Microsoft Foundry (incluindo modelos Azure OpenAI e modelos Models-as-a-service) | Modelos Foundry com faturação conforme o uso | Modelos abertos e personalizados |
| Serviço de alojamento | Recurso Microsoft Foundry | Recurso do projeto de IA em um hub | Recurso do projeto de IA em um hub |
| Base de faturação | Faturação baseada em tokens | Faturação baseada em tokens | Faturação baseada em computação |
Observação
A implantação padrão é recomendada para a maioria dos cenários.