Explorer le catalogue de modèles

Terminé

Le catalogue de modèles dans Microsoft Foundry fournit un référentiel central de modèles que vous pouvez rechercher pour trouver le modèle de langage approprié pour votre cas d’usage d’IA générative particulier.

Capture d’écran du catalogue de modèles dans le portail Microsoft Foundry.

La sélection d’un modèle de base pour votre application IA générative est importante, car elle affecte le fonctionnement de votre application. Pour trouver le meilleur modèle pour votre application, vous pouvez utiliser une approche structurée en vous posant les questions suivantes :

  • L’IA peut-elle résoudre mon cas d’utilisation ?
  • Comment faire pour sélectionner le meilleur modèle pour mon cas d’utilisation ?
  • Puis-je mettre à l’échelle pour les charges de travail réelles ?

Examinons chacune de ces questions.

L’IA peut-elle résoudre mon cas d’utilisation ?

Aujourd’hui, nous avons des milliers de modèles linguistiques parmi lesquels choisir. Le principal défi consiste à comprendre s’il existe un modèle qui répond à vos besoins et à répondre à la question suivante : L’IA peut-elle résoudre mon cas d’utilisation ?

Pour commencer à répondre à cette question, vous devez découvrir, filtrer et déployer un modèle. Vous pouvez explorer les modèles linguistiques disponibles via trois catalogues différents :

  • Hugging Face : vaste catalogue de modèles open source sur différents domaines.
  • GitHub : accès à divers modèles via la Place de marché GitHub et GitHub Copilot.
  • Microsoft Foundry : catalogue complet avec des outils robustes pour le déploiement.

Bien que vous puissiez utiliser chacun de ces catalogues pour explorer des modèles, le catalogue de modèles dans Microsoft Foundry facilite l’exploration et le déploiement d’un modèle pour créer votre prototype, tout en offrant la meilleure sélection de modèles.

Examinons certaines des options à prendre en compte lors de la recherche de modèles appropriés.

Choisir entre grand et petit modèle de langage

Tout d’abord, vous avez le choix entre les grands modèles de langage (LLM) et les petits modèles de langage (SLM).

  • Les LLM comme GPT-4, Mistral Large, Llama3 70B, Llama 405B et Command R+ sont des modèles IA puissants, conçus pour les tâches qui nécessitent un raisonnement profond, une génération de contenu complexe et une compréhension approfondie du contexte.

  • Les SLM comme Phi3, les modèles OSS Mistral et Llama3 8B sont efficaces et rentables, tout en gérant de nombreuses tâches courantes de traitement du langage naturel (NLP). Ils sont parfaits pour s’exécuter sur du matériel ou des appareils de périphérie bas de gamme, où les coûts et la vitesse sont plus importants que la complexité du modèle.

Concentrez-vous sur une modalité, une tâche ou un outil

Les modèles de langage tels que GPT-4 et Mistral Large sont également appelés modèles de complétion de conversation, conçus pour générer des réponses textuelles cohérentes et contextuellement appropriées. Lorsque vous avez besoin de niveaux de performances plus élevés dans des tâches complexes telles que les mathématiques, le codage, les sciences, la stratégie et la logistique, vous pouvez également utiliser des modèles de raisonnement comme DeepSeek-R1 et o1.

Au-delà de l’IA basée sur du texte, certains modèles sont multimodaux, ce qui signifie qu’ils peuvent traiter des images, de l’audio et d’autres types de données en même temps que du texte. Les modèles tels que GPT-4o et Phi3-vision sont capables d’analyser et de générer à la fois du texte et des images. Les modèles multimodaux sont utiles lorsque votre application doit traiter et comprendre les images, comme dans la vision par ordinateur ou l’analyse de documents. Ou lorsque vous souhaitez créer une application IA qui interagit avec du contenu visuel, par exemple un tuteur numérique expliquant des images ou des graphiques.

Si votre cas d’utilisation implique la génération d’images, des outils tels que DALL·E 3 et Stability AI peuvent créer des visuels réalistes à partir d’invites texte. Les modèles de génération d’images sont parfaits pour la conception de supports marketing, d’illustrations ou d’art numérique.

Un autre groupe de modèles spécifiques aux tâches comprend les modèles d’intégration comme Ada et Cohere. Les modèles d’intégration convertissent du texte en représentations numériques et sont utilisés pour améliorer la pertinence de la recherche, en comprenant la signification sémantique. Ces modèles sont souvent implémentés dans les scénarios de Génération augmentée par récupération (RAG) pour améliorer les moteurs de recommandation en liant des contenus similaires.

Lorsque vous souhaitez créer une application qui interagit avec d’autres outils logiciels dynamiquement, vous pouvez ajouter un appel de fonction et une prise en charge JSON. Ces fonctionnalités permettent aux modèles IA de fonctionner efficacement avec des données structurées, ce qui les rend utiles pour automatiser les appels d’API, les requêtes de base de données et le traitement de données structuré.

Se spécialiser avec des modèles régionaux et spécifiques au domaine

Certains modèles sont conçus pour des langues, des régions ou des secteurs d’activité spécifiques. Ces modèles peuvent surclasser l’IA générative à usage général dans leurs domaines respectifs. Par exemple :

  • Core42 JAIS est un LLM en langue arabe, ce qui en fait le meilleur choix pour les applications ciblant les utilisateurs arabes.
  • Mistral Large se concentre particulièrement sur les langues européennes, garantissant une meilleure précision linguistique pour les applications multilingues.
  • Nixtla TimeGEN-1 est spécialisé dans les prévisions de série chronologique, ce qui le rend idéal pour les prédictions financières, l’optimisation de la chaîne d’approvisionnement et les prévisions de demande.

Si votre projet a des besoins régionaux, linguistiques ou spécifiques au secteur d’activité, ces modèles peuvent fournir des résultats plus pertinents que l’IA à usage général.

Équilibrer la flexibilité et le niveau de performance avec des modèles ouverts et propriétaires

Vous devez également décider s’il faut utiliser des modèles open source ou des modèles propriétaires, chacun ayant ses propres avantages.

Les modèles propriétaires sont les meilleurs pour les performances les plus élevées et l’utilisation en entreprise. Azure propose des modèles tels que GPT-4 d’OpenAI, Mistral Large et Cohere Command R+, qui offrent des fonctionnalités IA de pointe. Ces modèles sont idéaux pour les entreprises qui ont besoin d’une sécurité, d’une prise en charge et d’une haute précision au niveau de l’entreprise.

Les modèles open source sont les meilleurs en termes de flexibilité et de rentabilité. Il existe des centaines de modèles open source disponibles dans le catalogue de modèles Microsoft Foundry à partir de Hugging Face et des modèles de Meta, Databricks, Snowflake et Nvidia. Les modèles ouverts permettent aux développeurs de contrôler davantage le réglage, la personnalisation et le déploiement local.

Quel que soit le modèle que vous choisissez, vous pouvez utiliser le catalogue de modèles Microsoft Foundry. L’utilisation de modèles via le catalogue de modèles répond aux exigences d’entreprise clés pour l’utilisation :

  • Données et confidentialité : vous pouvez décider de ce qui se passe avec vos données.
  • Sécurité et conformité : sécurité intégrée.
  • Intelligence artificielle responsable et sécurité du contenu : évaluations et sécurité du contenu.

Maintenant que vous connaissez les modèles de langage disponibles, vous devez pouvoir comprendre si l’IA peut résoudre votre cas d’utilisation. Si vous pensez qu’un modèle de langage enrichirait votre application, vous devez sélectionner le modèle spécifique que vous souhaitez déployer et intégrer.

Comment faire pour sélectionner le meilleur modèle pour mon cas d’utilisation ?

Pour sélectionner le meilleur modèle de langage pour votre cas d’usage, vous devez décider des critères que vous utilisez pour filtrer les modèles. Les critères sont les caractéristiques nécessaires que vous identifiez pour un modèle. Vous pouvez prendre en compte les quatre caractéristiques suivantes :

  • Type de tâche : quel type de tâche avez-vous besoin que le modèle effectue ? Cette tâche inclut-elle la compréhension du texte uniquement, de l’audio ou de la vidéo ou de plusieurs modalités ?
  • Précision : le modèle de base est-il suffisant ou avez-vous besoin d’un modèle affiné qui est entraîné sur une compétence ou un jeu de données spécifique ?
  • Ouverture : voulez-vous être en mesure d’affiner le modèle vous-même ?
  • Déploiement : voulez-vous déployer le modèle localement, sur un point de terminaison serverless ou voulez-vous gérer l’infrastructure de déploiement ?

Vous avez déjà exploré les différents types de modèles disponibles dans la section précédente. À présent, examinons plus en détail comment la précision et le niveau de performance peuvent être des filtres importants lors du choix d’un modèle.

Filtrer les modèles pour la précision

Dans l’IA générative, la précision fait référence à la précision du modèle dans la génération de sorties correctes et pertinentes. Elle mesure la proportion de résultats positifs réels (sorties correctes) parmi toutes les sorties générées. Une haute précision signifie moins de résultats non pertinents ou incorrects, ce qui rend le modèle plus fiable.

Lors de l’intégration d’un modèle de langage dans une application, vous pouvez choisir entre un modèle de base ou un modèle affiné. Un modèle de base, tel que GPT-4, est pré-entraîné sur un jeu de données volumineux et peut gérer différentes tâches, mais peut ne pas être précis pour des domaines spécifiques. Des techniques telles que l’ingénierie d’invite peuvent améliorer cela, mais il est parfois nécessaire d’affiner le réglage.

Un modèle affiné est formé davantage sur un jeu de données plus petit et spécifique à une tâche, afin d’améliorer sa précision et sa capacité à générer des sorties pertinentes pour des applications spécifiques. Vous pouvez utiliser un modèle affiné ou affiner un modèle vous-même.

Filtrer les modèles pour le niveau de performance

Vous pouvez évaluer le niveau de performance de votre modèle à différentes phases, à l’aide de différentes approches d’évaluation.

Lorsque vous explorez des modèles via le catalogue de modèles Microsoft Foundry, vous pouvez utiliser des benchmarks de modèle pour comparer les métriques disponibles publiquement, telles que la cohérence et la précision entre les modèles et les jeux de données. Ces benchmarks peuvent vous aider dans la phase d’exploration initiale, mais fournissent peu d’informations sur la façon dont le modèle fonctionnerait dans votre cas d’utilisation spécifique.

Point de référence Descriptif
Exactitude Compare le texte généré par un modèle avec une réponse correcte en fonction du jeu de données. Le résultat est de « un » si le texte généré correspond exactement à la réponse, sinon il est de « zéro ».
Cohérence Mesure si la sortie du modèle est harmonieuse, se lit naturellement et ressemble à un langage semblable à celui de l’homme.
Fluidité Évalue la façon dont le texte généré respecte les règles grammaticales, les structures syntaxiques et l’utilisation appropriée du vocabulaire, ce qui aboutit à des réponses linguistiquement correctes et naturelles.
Ancrage Mesure l’alignement entre les réponses générées du modèle et les données d’entrée.
Similarité GPT Quantifie la similarité sémantique entre une phrase de vérité de base (ou un document) et la phrase de prédiction générée par un modèle IA.
Index de qualité Un score d’agrégation comparative compris entre 0 et 1, avec des modèles plus performants scoreant une valeur plus élevée
Coût Coût de l’utilisation du modèle en fonction d’un prix par jeton. Le coût est une métrique utile avec laquelle comparer la qualité, ce qui vous permet de déterminer un compromis approprié pour vos besoins.

Pour évaluer l’exécution d’un modèle sélectionné en ce qui concerne vos besoins spécifiques, vous pouvez envisager des évaluations manuelles ou automatisées. Les évaluations manuelles vous permettent de noter les réponses de votre modèle. Les évaluations automatisées incluent les métriques d’apprentissage automatique traditionnelles et les métriques assistées par l’IA, qui sont calculées et générées pour vous.

Lorsque vous évaluez les performances d’un modèle, il est courant de commencer par des évaluations manuelles, car elles évaluent rapidement la qualité des réponses du modèle. Pour des comparaisons plus systématiques, les évaluations automatisées utilisant des métriques telles que la précision, le rappel et le score F1 en fonction de votre propre vérité terrain offrent une approche rapide, évolutive et plus objective.

Puis-je mettre à l’échelle pour les charges de travail réelles ?

Vous avez sélectionné un modèle pour votre cas d’utilisation et avez créé un prototype. À présent, vous devez comprendre comment effectuer une mise à l’échelle pour les charges de travail réelles.

Les considérations relatives à la mise à l’échelle d’une solution IA générative sont les suivantes :

  • Déploiement de modèle : Où allez-vous déployer le modèle pour obtenir le meilleur équilibre entre performances et coûts ?
  • Surveillance et optimisation des modèles : Comment surveiller, évaluer et optimiser les performances du modèle ?
  • Gestion des invites : Comment orchestrerez-vous et optimisez les invites pour optimiser la précision et la pertinence des réponses générées ?
  • Cycle de vie du modèle : Comment gérerez-vous les mises à jour de modèle, de données et de code dans le cadre d’un cycle de vie continu d’opérations d’IA générative (GenAIOps) ?

Microsoft Foundry fournit des outils visuels et codés qui peuvent vous aider à créer et à gérer une solution d’IA évolutive.