Implementación de un modelo en un punto de conexión
Al desarrollar una aplicación de IA generativa, debe integrar modelos de lenguaje en la aplicación. Para poder usar un modelo de lenguaje, debe implementar el modelo. Vamos a explorar cómo implementar modelos de lenguaje en Microsoft Foundry, después de comprender por qué implementar un modelo.
¿Por qué implementar un modelo?
Se entrena un modelo para generar la salida en función de alguna entrada. Para obtener valor del modelo, necesita una solución que le permita enviar la entrada al modelo, que el modelo procesa, tras lo cual se visualiza la salida para usted.
Con las aplicaciones de IA generativas, el tipo de solución más común es una aplicación de chat que espera una pregunta del usuario, que procesa el modelo, para generar una respuesta adecuada. A continuación, la respuesta se visualiza al usuario como respuesta a su pregunta.
Puede integrar un modelo de lenguaje con una aplicación de chat mediante la implementación del modelo en un punto de conexión. Un punto de conexión es una dirección URL específica en la que se puede acceder a un modelo o servicio implementados. Cada implementación de modelos suele tener su propio punto de conexión único, lo que permite que diferentes aplicaciones se comuniquen con el modelo a través de una API (interfaz de programación de aplicaciones).
Cuando un usuario realiza una pregunta:
- Se envía una solicitud de API al punto de conexión.
- El punto de conexión especifica el modelo que procesa la solicitud.
- El resultado se devuelve a la aplicación a través de una respuesta de API.
Ahora que comprende por qué desea implementar un modelo, vamos a explorar las opciones de implementación con Microsoft Foundry.
Implementación de un modelo de lenguaje con Microsoft Foundry
Al implementar un modelo de lenguaje con Microsoft Foundry, tiene varios tipos disponibles, que dependen del modelo que desea implementar.
Entre las opciones de implementación se incluyen:
- Implementación estándar: los modelos se hospedan en el recurso del proyecto Microsoft Foundry.
- Computación sin servidor: Los modelos se hospedan en terminales dedicados sin servidor administrados por Microsoft en un proyecto hub de Microsoft Foundry.
- Cómputo administrado: los modelos se hospedan en imágenes de máquina virtual administradas en el proyecto central de Microsoft Foundry.
El costo asociado depende del tipo de modelo que implemente, la opción de implementación que elija y lo que está haciendo con el modelo:
| Implementación estándar | Proceso sin servidor | Cómputo gestionado | |
|---|---|---|---|
| Modelos admitidos | Modelos de Microsoft Foundry (incluidos los modelos de Azure OpenAI y los modelos como servicio) | Modelos de Foundry con facturación de pago por uso | Modelos abiertos y personalizados |
| Servicio de hospedaje | Recurso de Microsoft Foundry | Recurso del proyecto de IA en un hub | Recurso del proyecto de IA en un hub |
| Base de facturación | Facturación basada en tokens | Facturación basada en tokens | Facturación basada en computación |
Nota:
Se recomienda la implementación estándar para la mayoría de los escenarios.