Implantar um modelo em um ponto de extremidade
Ao desenvolver um aplicativo de IA generativa, você precisa integrar modelos de linguagem ao seu aplicativo. Para poder usar um modelo de linguagem, você precisa implantar o modelo. Vamos explorar como implantar modelos de linguagem no Microsoft Foundry, depois de primeiro entender por que implantar um modelo.
Por que implantar um modelo?
Você treina um modelo para gerar saída com base em alguma entrada. Para obter valor do modelo, você precisa de uma solução que permita enviar entrada para o modelo, que o modelo processa, após o qual a saída é visualizada para você.
Com aplicativos de IA generativos, o tipo mais comum de solução é um aplicativo de chat que espera que uma pergunta do usuário, que o modelo processa, gere uma resposta adequada. Em seguida, a resposta é visualizada para o usuário como uma resposta à pergunta.
Você pode integrar um modelo de linguagem a um aplicativo de chat implantando o modelo em um ponto de extremidade. Um ponto de extremidade é uma URL específica em que um modelo ou serviço implantado pode ser acessado. Cada implantação de modelo normalmente tem seu próprio ponto de extremidade exclusivo, o que permite que diferentes aplicativos se comuniquem com o modelo por meio de uma API (Interface de Programação de Aplicativo).
Quando um usuário faz uma pergunta:
- Uma solicitação de API é enviada ao endpoint.
- O ponto de extremidade especifica o modelo que processa a solicitação.
- O resultado é enviado de volta ao aplicativo por meio de uma resposta à API.
Agora que você entende por que deseja implantar um modelo, vamos explorar as opções de implantação com o Microsoft Foundry.
Implantar um modelo de linguagem com o Microsoft Foundry
Ao implantar um modelo de idioma com o Microsoft Foundry, você tem vários tipos disponíveis, que dependem do modelo que você deseja implantar.
As opções de implantação incluem:
- Implantação padrão: os modelos são hospedados no recurso de projeto do Microsoft Foundry.
- Computação sem servidor: os modelos são hospedados em pontos de extremidade dedicados sem servidor gerenciados pela Microsoft em um projeto do Hub do Microsoft Foundry.
- Computação gerenciada: os modelos são hospedados em imagens de máquina virtual gerenciadas em um projeto do Hub do Microsoft Foundry.
O custo associado depende do tipo de modelo que você implanta, qual opção de implantação você escolher e o que está fazendo com o modelo:
| Implantação padrão | Computação sem servidor | Computação gerenciada | |
|---|---|---|---|
| Modelos com suporte | Modelos do Microsoft Foundry (incluindo modelos do Azure OpenAI e modelos como serviço) | Modelos Foundry com pagamento conforme o uso | Modelos abertos e personalizados |
| Serviço de hospedagem | Recurso do Microsoft Foundry | Recurso do Projeto de IA em um hub | Recurso do Projeto de IA em um hub |
| Base de cobrança | Cobrança baseada em token | Cobrança baseada em token | Cobrança baseada em computação |
Observação
A implantação padrão é recomendada para a maioria dos cenários.