Partager via


Exemples d’inférence d’API serverless pour les modèles Foundry

Note

Ce document fait référence au portail Microsoft Foundry (classique).

🔍 Consultez la documentation Microsoft Foundry (nouvelle) pour en savoir plus sur le nouveau portail.

Le catalogue de modèles Foundry offre une grande sélection de modèles Microsoft Foundry à partir d’un large éventail de fournisseurs. Vous avez différentes options pour déployer des modèles à partir du catalogue de modèles. Cet article répertorie les exemples d’inférence pour les déploiements d’API serverless.

Important

Les modèles en préversion comportent la mention préversion sur leur carte de modèle dans le catalogue de modèles.

Pour effectuer une inférence avec les modèles, certains modèles, tels que TimeGEN-1 de Nixtla et Cohere rerank, nécessitent que vous utilisiez des API personnalisées des fournisseurs de modèles. D’autres prennent en charge l’inférence à l’aide de l’API d’inférence de modèle. Vous trouverez plus d’informations sur les modèles individuels en examinant leurs cartes de modèle dans le catalogue de modèles pour le portail Foundry.

Cohere

La famille de modèles Cohere inclut divers modèles optimisés pour différents cas d’usage, notamment le reclassement, les complétions de conversation et les modèles d’incorporations.

Exemples d'inférence : Commande Cohere et intégration

Le tableau suivant fournit des liens vers des exemples d’utilisation de modèles Cohere.

Description Language Sample
Requêtes Web Bash Command-RCommand-R+
cohere-embed.ipynb
Package d’inférence Azure AI pour C# C# Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link
Kit de développement logiciel (SDK) OpenAI (expérimental) Python Link
LangChain Python Link
Kit de développement logiciel (SDK) Cohere Python Command
Embed
LiteLLM SDK Python Link

Génération augmentée par récupération (RAG) et exemples d'utilisation des outils : commande Cohere et intégration.

Description Packages Sample
Créer un index vectoriel local de recherche de similarité IA Facebook (FAISS) à l'aide des embeddings Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Utiliser Cohere Command R/R+ pour répondre aux questions des données dans l’index vectoriel FAISS local - Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Utiliser Cohere Command R/R+ pour répondre aux questions des données dans l’index vectoriel de recherche IA - Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Utiliser Cohere Command R/R+ pour répondre aux questions des données dans l’index vectoriel de recherche IA - Kit de développement logiciel (SDK) Cohere cohere, azure_search_documents cohere-aisearch-rag.ipynb
Appel de fonction de l'outil Command R+, utilisant LangChain cohere langchain langchain_cohere command_tools-langchain.ipynb

Reclasser Cohere

Pour effectuer une inférence avec des modèles de reclassement Cohere, vous devez utiliser les API personnalisées de Cohere. Pour plus d’informations sur le modèle de reclassement Cohere et ses fonctionnalités, consultez Rerank Cohere.

Tarification des modèles de reclassement Cohere

Les requêtes, qui ne doivent pas être confondues avec la requête d’un utilisateur, sont un compteur de tarification qui fait référence au coût associé aux jetons utilisés comme entrée pour l’inférence d’un modèle Cohere Rerank. Cohere compte une seule unité de recherche sous forme de requête avec jusqu’à 100 documents à classer. Documents de plus de 500 jetons (pour Cohere-rerank-v3.5) ou de plus de 4096 jetons (pour Cohere-rerank-v3-English et Cohere-rerank-v3-multilingue), y compris la longueur de la requête de recherche, sont divisés en plusieurs blocs, chaque bloc étant considéré comme un document unique.

Consultez la collection de modèles Cohere dans le portail Foundry.

Core42

Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles Jais.

Description Language Sample
Package d’inférence Azure AI pour C# C# Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link

DeepSeek

La famille de modèles DeepSeek comprend DeepSeek-R1, qui excelle dans les tâches de raisonnement à l’aide d’un processus de formation pas à pas, tel que le langage, le raisonnement scientifique et les tâches de codage, DeepSeek-V3-0324, un modèle de langage MoE (Mix-of-Experts), etc.

Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles DeepSeek.

Description Language Sample
Package Azure AI Inference pour Python Python Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package d’inférence Azure AI pour C# C# Link
Package d’inférence Azure AI pour Java Java Link

Meta

Les modèles et outils Meta Llama font partie d’une collection de modèles de raisonnement de texte et d’image d’IA générative préentraînés et affinés. La plage de modèles Meta est mise à l’échelle pour inclure :

  • Des petits modèles de langage (SLM) tels que les modèles 1B et 3B Base et Instruct pour une inférence sur appareil et en périphérie
  • Des grands modèles de langage (LLM) de taille moyenne tels que les modèles 7B, 8B et 70B Base et Instruct
  • Des modèles de haut niveau de performance tels que Meta Llama 3.1-405B Instruct pour des cas d’usage tels que la génération de données synthétiques et la distillation.
  • Des modèles multimodaux performants en mode natif, Llama 4 Scout et Llama 4 Maverick, tirent parti d’une architecture de mélange d’experts pour offrir des performances de pointe dans le texte et la compréhension de l’image.

Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles Meta Llama.

Description Language Sample
Requête CURL Bash Link
Package d’inférence Azure AI pour C# C# Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link
Requêtes Web Python Python Link
Kit de développement logiciel (SDK) OpenAI (expérimental) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Les modèles Microsoft incluent différents groupes de modèles tels que les modèles MAI, les modèles Phi, les modèles IA de santé, etc. Pour afficher tous les modèles Microsoft disponibles, affichez la collection de modèles Microsoft dans le portail Foundry.

Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles Microsoft.

Description Language Sample
Package d’inférence Azure AI pour C# C# Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link
LangChain Python Link
Llama-Index Python Link

Consultez la collection de modèles Microsoft dans le portail Foundry.

Mistral IA

Mistral AI propose deux catégories de modèles, à savoir :

  • Modèles Premium : Les modèles Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) et Ministral 3B sont disponibles en tant qu’API serverless avec facturation basée sur les jetons de paiement à l’utilisation.
  • Modèles ouverts : Ceux-ci incluent Mistral-small-2503, Codestral et Mistral Nemo (qui sont disponibles en tant qu’API serverless avec facturation basée sur le paiement à l’utilisation) et Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 et Mistral-7B-v01(qui sont disponibles pour télécharger et exécuter sur des points de terminaison managés auto-hébergés).

Le tableau suivant fournit des liens vers des exemples d’utilisation de modèles Mistral.

Description Language Sample
Requête CURL Bash Link
Package d’inférence Azure AI pour C# C# Link
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link
Requêtes Web Python Python Link
Kit de développement logiciel (SDK) OpenAI (expérimental) Python Mistral - Exemple de Kit de développement logiciel (SDK) OpenAI
LangChain Python Mistral - LangChain exemple
Mistral IA Python Mistral - Exemple d’IA Mistral
LiteLLM Python Mistral – Exemple LiteLLM

Nixtla

TimeGEN-1 de Nixtla est un modèle de prévision préentraîné et de détection des anomalies pour les données de série chronologique. TimeGEN-1 peut produire des prévisions précises pour de nouvelles séries chronologiques sans entraînement, en utilisant uniquement des valeurs historiques et des covariables exogènes comme entrées.

Pour effectuer l’inférence, TimeGEN-1 vous oblige à utiliser l’API d’inférence personnalisée de Nixtla. Pour plus d’informations sur le modèle TimeGEN-1 et ses fonctionnalités, consultez Nixtla.

Estimer le nombre de jetons nécessaires

Avant de créer un déploiement TimeGEN-1, il est utile d’estimer le nombre de jetons que vous envisagez d’utiliser et d’être facturés. Un jeton correspond à un point de données dans votre jeu de données d’entrée ou de sortie.

Prenons par exemple le jeu de données de série chronologique d’entrée suivant :

Unique_id Timestamp Variable cible Variable exogène 1 Variable exogène 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Pour déterminer le nombre de jetons, multipliez le nombre de lignes (deux dans cet exemple) par le nombre de colonnes utilisées pour la prévision (trois dans cet exemple, les colonnes unique_id et timestamp ne comptant pas) pour obtenir un total de six jetons.

Compte tenu du jeu de données de sortie suivant :

Unique_id Timestamp Variable cible prévue
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Vous pouvez également déterminer le nombre de jetons en comptant le nombre de points de données retournés après la prévision des données. Dans cet exemple, le nombre de jetons est de deux.

Estimer la tarification en fonction des jetons

Quatre compteurs de tarification déterminent le prix que vous payez. Ces compteurs sont les suivants :

Compteur tarifaire Description
paygo-inference-input-tokens Coûts associés aux jetons utilisés comme entrée pour l’inférence lorsque finetune_steps = 0
paygo-inference-output-tokens Coûts associés aux jetons utilisés comme sortie pour l’inférence lorsque finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Coûts associés aux jetons utilisés comme entrée pour l’inférence lorsque finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Coûts associés aux jetons utilisés comme sortie pour l’inférence lorsque finetune_steps> 0

Consultez la collection de modèles Nixtla dans le portail Foundry.

IA de stabilité

Les modèles IA de stabilité déployés via le déploiement d’API serverless implémentent l’API d’inférence de modèle sur l’itinéraire /image/generations. Pour obtenir des exemples d’utilisation des modèles IA de stabilité, consultez les exemples suivants :

Gretel Navigator

Gretel Navigator utilise une architecture d’IA composée spécialement conçue pour les données synthétiques, en combinant des modèles de petite langue open source (SLMs) affinés dans plus de 10 domaines industriels. Ce système spécialement conçu crée des jeux de données variés et propres à un domaine, à des échelles allant de centaines à plusieurs millions d’exemples. Le système préserve également des relations statistiques complexes et offre une vitesse et une précision accrues par rapport à la création manuelle de données.

Description Language Sample
Package Azure AI Inference pour JavaScript JavaScript Link
Package Azure AI Inference pour Python Python Link