Implantar um modelo em um ponto de extremidade

5 minutos

Ao desenvolver um aplicativo de IA generativa, você precisa integrar modelos de linguagem em seu aplicativo. Para poder usar um modelo de linguagem, você precisa implantar o modelo. Vamos explorar como implementar modelos de linguagem no Microsoft Foundry, depois de percebermos primeiro por que deve implementar um modelo.

Por que implantar um modelo?

Você treina um modelo para gerar saída com base em alguma entrada. Para obter valor do seu modelo, você precisa de uma solução que lhe permita enviar entrada para o modelo, que o modelo processa, após o que a saída é visualizada para você.

Com aplicativos de IA generativa, o tipo mais comum de solução é um aplicativo de bate-papo que espera que uma pergunta do usuário, que o modelo processa, gere uma resposta adequada. A resposta é então visualizada para o usuário como uma resposta à sua pergunta.

Diagrama da pergunta do usuário sendo processada pelo modelo implantado no ponto de extremidade.

Você pode integrar um modelo de linguagem com um aplicativo de chat implantando o modelo em um ponto de extremidade. Um ponto de extremidade é uma URL específica onde um modelo ou serviço implantado pode ser acessado. Cada implantação de modelo normalmente tem seu próprio ponto de extremidade exclusivo, que permite que diferentes aplicativos se comuniquem com o modelo por meio de uma API (Application Programming Interface).

Quando um usuário faz uma pergunta:

Um pedido de API é enviado para o endpoint.
O ponto de extremidade especifica o modelo que processa a solicitação.
O resultado é enviado de volta ao aplicativo por meio de uma resposta da API.

Agora que percebe porque quer implementar um modelo, vamos explorar as opções de implementação com o Microsoft Foundry.

Implementar um modelo de linguagem com o Microsoft Foundry

Quando implementa um modelo de linguagem com o Microsoft Foundry, tem vários tipos disponíveis, que dependem do modelo que pretende implementar.

As opções de implantação incluem:

Implementação padrão: Os modelos são alojados no recurso do projeto Microsoft Foundry.
Computação serverless: Os modelos são alojados em endpoints serverless dedicados geridos pela Microsoft num projeto hub Microsoft Foundry.
Computação gerida: Os modelos são alojados em imagens de máquinas virtuais geridas num projeto hub da Microsoft Foundry.

O custo associado depende do tipo de modelo implantado, da opção de implantação escolhida e do que está fazendo com o modelo:

	Implementação padrão	Computação sem servidor	Computação sob gestão
Modelos suportados	Modelos Microsoft Foundry (incluindo modelos Azure OpenAI e modelos Models-as-a-service)	Modelos Foundry com faturação conforme o uso	Modelos abertos e personalizados
Serviço de alojamento	Recurso Microsoft Foundry	Recurso do projeto de IA em um hub	Recurso do projeto de IA em um hub
Base de faturação	Faturação baseada em tokens	Faturação baseada em tokens	Faturação baseada em computação

Observação

A implantação padrão é recomendada para a maioria dos cenários.

Feedback

Esta página foi útil?