Déployer un modèle sur un point de terminaison

Terminé

Quand vous développez une application d’IA générative, vous devez intégrer des modèles de langage dans votre application. Pour pouvoir utiliser un modèle de langage, vous devez déployer le modèle. Examinons comment déployer des modèles de langage dans Microsoft Foundry, après avoir d’abord compris pourquoi déployer un modèle.

Pourquoi déployer un modèle ?

Vous entraînez un modèle pour générer une sortie en fonction d’une entrée. Pour extraire la valeur de votre modèle, vous avez besoin d’une solution qui vous permet d’envoyer une entrée au modèle, que le modèle traite, après quoi la sortie est visualisée pour vous.

Avec les applications IA génératives, le type de solution le plus courant est une application de conversation qui attend une question utilisateur, que le modèle traite, pour générer une réponse adéquate. La réponse est ensuite visualisées à l’utilisateur comme réponse à sa question.

Diagramme de la question de l’utilisateur en cours de traitement par le modèle déployé sur le point de terminaison.

Vous pouvez intégrer un modèle de langage à une application de conversation en déployant le modèle sur un point de terminaison. Un point de terminaison est une URL spécifique où un modèle ou un service déployé est accessible. Chaque déploiement de modèle a généralement son propre point de terminaison unique, ce qui permet à différentes applications de communiquer avec le modèle via une API (interface de programmation d’application).

Lorsqu’un utilisateur pose une question :

  1. Une demande d’API est envoyée au point de terminaison.
  2. Le point de terminaison spécifie le modèle qui traite la requête.
  3. Le résultat est renvoyé à l’application par le biais d’une réponse d’API.

Maintenant que vous comprenez pourquoi vous souhaitez déployer un modèle, examinons les options de déploiement avec Microsoft Foundry.

Déployer un modèle de langage avec Microsoft Foundry

Lorsque vous déployez un modèle de langage avec Microsoft Foundry, vous disposez de plusieurs types disponibles, qui dépendent du modèle que vous souhaitez déployer.

Les options de déploiement sont les suivantes :

  • Déploiement standard : les modèles sont hébergés dans la ressource de projet Microsoft Foundry.
  • Calcul serverless : les modèles sont hébergés sur des endpoints « serverless » dédiés et gérés par Microsoft dans un projet de hub Microsoft Foundry.
  • Calcul managé : les modèles sont hébergés dans des images de machine virtuelle managée dans un projet de hub Microsoft Foundry.

Le coût associé dépend du type de modèle que vous déployez, de l’option de déploiement que vous choisissez et de ce que vous effectuez avec le modèle :

Déploiement standard Informatique sans serveur Capacité de calcul managée
Modèles pris en charge Modèles Microsoft Foundry (y compris les modèles Azure OpenAI et les modèles modèles en tant que service) Modèles Foundry avec facturation à l'usage Modèles ouverts et personnalisés
Service d’hébergement Ressource Microsoft Foundry Ressource de projet IA dans un hub Ressource de projet IA dans un hub
Base de facturation Facturation basée sur les jetons Facturation basée sur les jetons Facturation basée sur le calcul

Remarque

Le déploiement standard est recommandé pour la plupart des scénarios.