Partager via


Modèles Foundry vendus directement par Azure

Note

Ce document fait référence au portail Microsoft Foundry (classique).

🔄 Accédez à la documentation Microsoft Foundry (nouveau) si vous utilisez le nouveau portail.

Note

Ce document fait référence au portail Microsoft Foundry (nouveau).

Cet article répertorie une sélection de modèles Microsoft Foundry vendus directement par Azure, ainsi que leurs fonctionnalités, types de déploiement et régions de disponibilité, à l’exclusion des modèles déconseillés et hérités. Pour afficher la liste des modèles Azure OpenAI pris en charge par le service De l’agent Foundry, consultez Modèles pris en charge par le service d’agent.

Les modèles vendus directement par Azure incluent tous les modèles Azure OpenAI et des modèles spécifiques et sélectionnés parmi les principaux fournisseurs.

Selon le type de projet que vous utilisez dans Microsoft Foundry, vous voyez une sélection différente de modèles. Plus précisément, si vous utilisez un projet Foundry basé sur une ressource Foundry, vous voyez les modèles disponibles pour le déploiement standard vers une ressource Foundry. Alternativement, si vous utilisez un projet basé sur un hub hébergé par un Foundry hub, vous verrez les modèles disponibles pour le déploiement sur des API de calcul managées et serverless. Ces sélections de modèles se chevauchent souvent, car de nombreux modèles prennent en charge plusieurs options de déploiement.

Les modèles Foundry sont disponibles pour le déploiement standard vers une ressource Foundry.

Pour en savoir plus sur les attributs des modèles Foundry vendus directement par Azure, consultez Explorer les modèles Foundry.

Note

Les modèles foundry vendus directement par Azure incluent également des modèles sélectionnés parmi les principaux fournisseurs de modèles, tels que :

  • Black Forest Labs : FLUX.2-pro, , FLUX.1-Kontext-proFLUX-1.1-pro
  • Cohere : Cohere-command-a, embed-v-4-0, Cohere-rerank-v4.0-pro, Cohere-rerank-v4.0-fast
  • DeepSeek : DeepSeek-V3.2, , DeepSeek-V3.2-SpecialeDeepSeek-V3.1DeepSeek-V3-0324, DeepSeek-R1-0528, ,DeepSeek-R1
  • IA Moonshot : Kimi-K2-Thinking
  • Meta : Llama-4-Maverick-17B-128E-Instruct-FP8, Llama-3.3-70B-Instruct
  • Microsoft : MAI-DS-R1, model-router
  • Mistral : mistral-document-ai-2505, Mistral-Large-3
  • xAI : grok-code-fast-1, grok-3, grok-3-mini, grok-4-fast-reasoning, grok-4-fast-non-reasoning, grok-4

Pour en savoir plus sur ces modèles, basculez vers d’autres collections de modèles en haut de cet article.

Azure OpenAI dans les modèles Microsoft Foundry

Azure OpenAI est alimenté par un ensemble diversifié de modèles avec différentes fonctionnalités et points de prix. La disponibilité du modèle varie selon la région et le cloud. Pour la disponibilité du modèle Azure Government, reportez-vous à Azure OpenAI dans Azure Government.

Models Descriptif
Série GPT-5.2 NEWgpt-5.2, gpt-5.2-chat (préversion)
Série GPT-5.1 NOUVEAUgpt-5.1, gpt-5.1-chat, gpt-5.1-codex, gpt-5.1-codex-mini
Sora NOUVEAU sora-2
Série GPT-5 gpt-5, gpt-5-mini, gpt-5-nano, gpt-5-chat
gpt-oss modèles de raisonnement à poids ouverts
codex-mini Version affinée d’o4-mini.
Série GPT-4.1 gpt-4.1, gpt-4.1-mini, gpt-4.1-nano
computer-use-preview Modèle expérimental entraîné pour une utilisation avec l’outil d’utilisation de l’API Réponses.
modèles de la série O Modèles de raisonnement avec résolution de problèmes avancées et concentration et capacité accrues.
GPT-4o, GPT-4o mini et GPT-4 Turbo Modèles Azure OpenAI compatibles avec des versions modales, qui peuvent accepter à la fois du texte et des images comme entrée.
GPT-4 Ensemble de modèles qui améliorent GPT-3.5 et qui permettent de comprendre et de générer du langage naturel et du code.
GPT-3.5 Ensemble de modèles qui améliorent GPT-3 et qui permettent de comprendre et de générer du langage naturel et du code.
Embeddings Ensemble de modèles qui permettent de convertir du texte en forme vectorielle numérique pour faciliter la similarité du texte.
Génération d’images Série de modèles qui peuvent générer des images originales en provenance d’un langage naturel.
Video generation Modèle qui peut générer des scènes vidéo d’origine à partir d’instructions textuelles.
Audio Série de modèles pour la reconnaissance vocale, la traduction et la synthèse vocale. Les modèles audio GPT-4o prennent en charge soit des interactions conversationnelles à faible latence avec entrée et sortie vocales, soit la génération audio.

GPT-5.2

Disponibilité de la région

Model Région
gpt-5.2 USA Est 2 et Suède Centre (Standard global)
gpt-5.2-chat USA Est 2 et Suède Centre (Standard global)

L’accès sera accordé en fonction des critères d’éligibilité de Microsoft. Les clients qui ont précédemment appliqué et reçu l’accès à un modèle d’accès limité n’ont pas besoin de réappliquer, car leurs abonnements approuvés sont automatiquement autorisés à accéder à la version du modèle.

ID de modèle Descriptif Fenêtre de contexte Nombre maximal de jetons de sortie Données d’entraînement (date max.)
gpt-5.2 (2025-12-11) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 Octobre 2024
gpt-5.2-chat (2025-12-11)
Aperçu
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées
- Fonctions, outils et appel d’outils parallèles.
128,000

Entrée : 111 616
Sortie : 16 384
16 384 Octobre 2024

GPT-5.1

Disponibilité de la région

Model Région
gpt-5.1 USA Est 2 et Suède Centre (zones Standard Global et DataZone Standard)
gpt-5.1-chat USA Est 2 et Suède Centre (Standard global)
gpt-5.1-codex USA Est 2 et Suède Centre (Standard global)
gpt-5.1-codex-mini USA Est 2 et Suède Centre (Standard global)
gpt-5.1-codex-max USA Est 2 et Suède Centre (Standard global)

L’accès sera accordé en fonction des critères d’éligibilité de Microsoft. Les clients qui ont précédemment appliqué et reçu l’accès à un modèle d’accès limité n’ont pas besoin de réappliquer, car leurs abonnements approuvés sont automatiquement autorisés à accéder à la version du modèle.

ID de modèle Descriptif Fenêtre de contexte Nombre maximal de jetons de sortie Données d’entraînement (date max.)
gpt-5.1 (2025-11-13) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024
gpt-5.1-chat (2025-11-13) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées
- Fonctions, outils et appel d’outils parallèles.
128,000

Entrée : 111 616
Sortie : 16 384
16 384 30 septembre 2024
gpt-5.1-codex (2025-11-13) - API Réponses uniquement.
- Traitement du texte et de l’image
- Sorties structurées.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités
- Optimisé pour l’extension CLI du Codex & Codex VS Code
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024
gpt-5.1-codex-mini (2025-11-13) - API Réponses uniquement.
- Traitement du texte et de l’image
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités
- Optimisé pour l’extension CLI du Codex & Codex VS Code
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024
gpt-5.1-codex-max (2025-12-04) - API Réponses uniquement.
- Traitement du texte et de l’image
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités
- Optimisé pour l’extension CLI du Codex & Codex VS Code
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024

Important

  • gpt-5.1 reasoning_effort est défini par défaut sur none. Lors de la mise à niveau des modèles de raisonnement précédents vers gpt-5.1, gardez à l’esprit que vous devrez peut-être mettre à jour votre code pour spécifier explicitement un niveau de reasoning_effort si vous souhaitez que le raisonnement se produise.

  • gpt-5.1-chat ajoute des fonctionnalités de raisonnement intégrées. Comme d’autres modèles de raisonnement , il ne prend pas en charge les paramètres comme temperature. Si vous effectuez une mise à niveau à partir de l’utilisation de gpt-5-chat (qui n’est pas un modèle de raisonnement) vers gpt-5.1-chat, assurez-vous de supprimer les paramètres personnalisés tels que temperature de votre code, car ils ne sont pas pris en charge par les modèles de raisonnement.

  • gpt-5.1-codex-max ajoute la prise en charge du paramétrage de reasoning_effort à xhigh. L’effort none de raisonnement n’est pas pris en charge avec gpt-5.1-codex-max.

GPT-5

Disponibilité de la région

Model Région
gpt-5 (2025-08-07) Consultez la table des modèles.
gpt-5-mini (2025-08-07) Consultez la table des modèles.
gpt-5-nano (2025-08-07) Consultez la table des modèles.
gpt-5-chat (2025-08-07) Consultez la table des modèles.
gpt-5-chat (2025-10-03) USA Est2 (Standard global) et Suède Centre (Standard global)
gpt-5-codex (2025-09-11) USA Est2 (Standard global) et Suède Centre (Standard global)
gpt-5-pro (2025-10-06) USA Est2 (Standard global) et Suède Centre (Standard global)

L’accès sera accordé en fonction des critères d’éligibilité de Microsoft. Les clients qui ont précédemment appliqué et reçu l’accès à o3, n’ont pas besoin de réappliquer, car leurs abonnements approuvés sont automatiquement autorisés à accéder à la version du modèle.

ID de modèle Descriptif Fenêtre de contexte Nombre maximal de jetons de sortie Données d’entraînement (date max.)
gpt-5 (2025-08-07) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024
gpt-5-mini (2025-08-07) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 31 mai 2024
gpt-5-nano (2025-08-07) - Raisonnement
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 31 mai 2024
gpt-5-chat (2025-08-07)
Aperçu
- API de saisie semi-automatique de conversation.
- API Responses.
- Entrée : texte/image
- Sortie : texte uniquement
128 000 16 384 30 septembre 2024
gpt-5-chat (2025-10-03)
Aperçu1
- API de saisie semi-automatique de conversation.
- API Responses.
- Entrée : texte/image
- Sortie : texte uniquement
128 000 16 384 30 septembre 2024
gpt-5-codex (2025-09-11) - API Réponses uniquement.
- Entrée : texte/image
- Sortie : Texte uniquement
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
- Résumé complet des fonctionnalités
- Optimisé pour l’extension CLI du Codex & Codex VS Code
400 000

Entrée : 272 000
Sortie : 128 000
128 000 -
gpt-5-pro (2025-10-06) - Raisonnement
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions et outils
- Résumé complet des fonctionnalités.
400 000

Entrée : 272 000
Sortie : 128 000
128 000 30 septembre 2024

Note

La version gpt-5-chat2025-10-03 présente une amélioration significative axée sur l’intelligence émotionnelle et les capacités de santé mentale. Cette mise à niveau intègre des jeux de données spécialisés et des stratégies de réponse affinées pour améliorer la capacité du modèle à :

  • Comprendre et interpréter le contexte émotionnel plus précisément, ce qui permet des interactions nuancées et empathiques.
  • Fournir des réponses favorables et responsables dans les conversations liées à la santé mentale, en garantissant la sensibilité et l’adhésion aux meilleures pratiques.

Ces améliorations visent à rendre la conversation GPT-5 plus sensible au contexte, centrée sur l’homme et fiable dans les scénarios où les considérations relatives au ton émotionnel et au bien-être sont essentielles.

gpt-oss

Disponibilité de la région

Model Région
gpt-oss-120b Toutes les régions Azure OpenAI

Capacités

ID de modèle Descriptif Fenêtre de contexte Nombre maximal de jetons de sortie Données d’entraînement (date max.)
gpt-oss-120b (préversion) - Texte entrant/texte sortant uniquement
- API de saisie semi-automatique de conversation
-Streaming
- Appel de fonction
- Sorties structurées
- Raisonnement
- Disponible pour le déploiement1 et via le calcul managé
131 072 131 072 31 mai 2024
gpt-oss-20b (préversion) - Texte entrant/texte sortant uniquement
- API de saisie semi-automatique de conversation
-Streaming
- Appel de fonction
- Sorties structurées
- Raisonnement
- Disponible via le calcul managé et Foundry Local
131 072 131 072 31 mai 2024

1 Contrairement à d’autres modèles Azure OpenAI, gpt-oss-120b un projet Foundry est nécessaire pour déployer le modèle.

Déployer avec du code

az cognitiveservices account deployment create \
  --name "Foundry-project-resource" \
  --resource-group "test-rg" \
  --deployment-name "gpt-oss-120b" \
  --model-name "gpt-oss-120b" \
  --model-version "1" \
  --model-format "OpenAI-OSS" \
  --sku-capacity 10 \
  --sku-name "GlobalStandard"

Série GPT-4.1

Disponibilité de la région

Model Région
gpt-4.1 (2025-04-14) Consultez la table des modèles.
gpt-4.1-nano (2025-04-14) Consultez la table des modèles.
gpt-4.1-mini (2025-04-14) Consultez la table des modèles.

Capacités

Important

Un problème connu affecte tous les modèles de série GPT 4.1. Les définitions d’appel d’outil ou de fonction volumineuses qui dépassent 300 000 jetons entraînent des échecs, même si la limite de contexte de jeton de 1 million de modèles n’a pas été atteinte.

Les erreurs peuvent varier en fonction de l’appel d’API et des caractéristiques de charge utile sous-jacentes.

Voici les messages d’erreur pour l’API De saisie semi-automatique de conversation :

  • Error code: 400 - {'error': {'message': "This model's maximum context length is 300000 tokens. However, your messages resulted in 350564 tokens (100 in the messages, 350464 in the functions). Please reduce the length of the messages or functions.", 'type': 'invalid_request_error', 'param': 'messages', 'code': 'context_length_exceeded'}}

  • Error code: 400 - {'error': {'message': "Invalid 'tools[0].function.description': string too long. Expected a string with maximum length 1048576, but got a string with length 2778531 instead.", 'type': 'invalid_request_error', 'param': 'tools[0].function.description', 'code': 'string_above_max_length'}}

Voici le message d’erreur de l’API Réponses :

  • Error code: 500 - {'error': {'message': 'The server had an error processing your request. Sorry about that! You can retry your request, or contact us through an Azure support request at: https://go.microsoft.com/fwlink/?linkid=2213926 if you keep seeing this error. (Please include the request ID d2008353-291d-428f-adc1-defb5d9fb109 in your email.)', 'type': 'server_error', 'param': None, 'code': None}}
ID de modèle Descriptif Fenêtre contextuelle Jetons de sortie maximale Données d’entraînement (jusqu’à)
gpt-4.1 (2025-04-14) - Entrée de texte et d’image
- Sortie de texte
- API de saisie semi-automatique de conversation
- API Responses
-Streaming
- Appel de fonction
- Sorties structurées (achèvements de conversation)
- 1,047,576
- 128 000 (déploiements managés provisionnés)
- 300 000 (déploiements par lots)
32,768 31 mai 2024
gpt-4.1-nano (2025-04-14) - Entrée de texte et d’image
- Sortie de texte
- API de saisie semi-automatique de conversation
- API Responses
-Streaming
- Appel de fonction
- Sorties structurées (achèvements de conversation)
- 1,047,576
- 128 000 (déploiements managés provisionnés)
- 300 000 (déploiements par lots)
32,768 31 mai 2024
gpt-4.1-mini (2025-04-14) - Entrée de texte et d’image
- Sortie de texte
- API de saisie semi-automatique de conversation
- API Responses
-Streaming
- Appel de fonction
- Sorties structurées (achèvements de conversation)
- 1,047,576
- 128 000 (déploiements managés provisionnés)
- 300 000 (déploiements par lots)
32,768 31 mai 2024

computer-use-preview

Modèle expérimental entraîné pour être utilisé avec l'outil informatique API Réponses.

Il peut être utilisé avec des bibliothèques tierces pour permettre au modèle de contrôler l’entrée de la souris et du clavier, tout en obtenant le contexte à partir de captures d’écran de l’environnement actuel.

Caution

Nous vous déconseillons d’utiliser des versions de prévisualisation en production. Nous allons mettre à niveau tous les déploiements de modèles en préversion vers les versions ultérieures ou vers la dernière version stable et en disponibilité générale. Les modèles désignés comme préversion ne suivent pas le cycle de vie standard des modèles Azure OpenAI.

L’inscription est requise pour accéder computer-use-preview. L’accès est accordé en fonction des critères d’éligibilité de Microsoft. Les clients qui ont accès à d’autres modèles d’accès limité doivent toujours demander l’accès pour ce modèle.

Pour demander l’accès, accédez à une application de modèle d’accès limitée computer-use-preview. Lorsque l’accès est accordé, vous devez créer un déploiement pour le modèle.

Disponibilité de la région

Model Région
computer-use-preview Consultez la table des modèles.

Capacités

ID de modèle Descriptif Fenêtre contextuelle Jetons de sortie maximale Données d’entraînement (jusqu’à)
computer-use-preview (2025-03-11) Modèle spécialisé à utiliser avec l’outil d’utilisation de l’API Réponses

-Outils
-Streaming
- Text (entrée/sortie)
- Image (entrée)
8,192 1,024 Octobre 2023

modèles de la série O

Les modèles de série o Azure OpenAI sont conçus pour traiter les tâches de raisonnement et de résolution des problèmes avec une concentration et une capacité accrues. Ces modèles passent plus de temps à traiter et à comprendre la requête de l’utilisateur(-trice), ce qui les rend exceptionnellement forts dans des domaines tels que la science, le codage et les mathématiques par rapport aux itérations précédentes.

ID de modèle Descriptif Nbre maximal de demandes (jetons) Données d’entraînement (jusqu’à)
codex-mini (2025-05-16) Version affinée de o4-mini.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions et outils.
Résumé complet des fonctionnalités.
Entrée : 200 000
Sortie : 100 000
31 mai 2024
o3-pro (2025-06-10) - API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions et outils.
Résumé complet des fonctionnalités.
Entrée : 200 000
Sortie : 100 000
31 mai 2024
o4-mini (2025-04-16) - Nouveau modèle de raisonnement, offrant des capacités de raisonnement améliorées.
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions et outils.
Résumé complet des fonctionnalités.
Entrée : 200 000
Sortie : 100 000
31 mai 2024
o3 (2025-04-16) - Nouveau modèle de raisonnement, offrant des capacités de raisonnement améliorées.
- API de saisie semi-automatique de conversation.
- API Responses.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions, outils et appel d’outils parallèles.
Résumé complet des fonctionnalités.
Entrée : 200 000
Sortie : 100 000
31 mai 2024
o3-mini (2025-01-31) - Capacités de raisonnement améliorées.
- Sorties structurées.
- Traitement de texte uniquement.
- Fonctions et outils.
Entrée : 200 000
Sortie : 100 000
Octobre 2023
o1 (2024-12-17) - Capacités de raisonnement améliorées.
- Sorties structurées.
- Traitement du texte et de l’image.
- Fonctions et outils.
Entrée : 200 000
Sortie : 100 000
Octobre 2023
o1-preview (12-09-2024) Version préliminaire antérieure. Entrée : 128 000
Sortie : 32 768
Octobre 2023
o1-mini (12-09-2024) Une option plus rapide et plus économique dans la série o1, idéale pour les tâches de codage qui nécessitent une vitesse et une consommation de ressources plus faible.
- Déploiement standard global disponible par défaut.
- Actuellement, les déploiements standard (régionaux) sont uniquement disponibles pour une sélection de clients qui ont reçu un accès dans le cadre de la version en accès limité o1-preview.
Entrée : 128 000
Sortie : 65 536
Octobre 2023

Pour en savoir plus sur les modèles de série o avancés, consultez Prise en main des modèles de raisonnement.

Disponibilité de la région

Model Région
codex-mini USA Est 2 et Suède Centre (Standard global).
o3-pro USA Est 2 et Suède Centre (Standard global).
o4-mini Consultez la table des modèles.
o3 Consultez la table des modèles.
o3-mini Consultez la table des modèles.
o1 Consultez la table des modèles.
o1-preview Consultez la table des modèles. Ce modèle est disponible uniquement pour les clients qui ont obtenu l’accès dans le cadre de l’accès limité d’origine.
o1-mini Consultez la table des modèles.

GPT-4o et GPT-4 Turbo

GPT-4o intègre du texte et des images dans un modèle unique, ce qui lui permet de gérer plusieurs types de données simultanément. Cette approche multimodale améliore l'exactitude et la réactivité des interactions homme-machine. GPT-4o correspond à GPT-4 Turbo en texte et en codage en anglais tout en offrant des performances supérieures dans les tâches et les tâches de vision non-anglaises, en définissant de nouveaux benchmarks pour les fonctionnalités d’IA.

Modèles GPT-4 et GPT-4 Turbo

Ces modèles ne peuvent être utilisés qu’avec l’API De saisie semi-automatique de conversation.

Consultez les versions de modèle pour en savoir plus sur la façon dont Azure OpenAI gère les mises à niveau des versions de modèle. Consultez Utilisation des modèles pour découvrir comment afficher et configurer les paramètres de version du modèle de vos déploiements GPT-4.

ID de modèle Descriptif Nbre maximal de demandes (jetons) Données d’entraînement (jusqu’à)
gpt-4o (2024-11-20)
GPT-4o (Omni)
- Sorties structurées.
- Traitement du texte et de l’image.
- Mode JSON.
- Appel de fonction parallèle.
- Précision et réactivité améliorées.
- Parité avec le texte anglais et les tâches de codage par rapport à GPT-4 Turbo avec Vision.
- Performances supérieures dans les langues non anglaises et dans les tâches de vision.
- Capacité d’écriture créative améliorée.
Entrée : 128 000
Sortie : 16 384
Octobre 2023
gpt-4o (2024-08-06)
GPT-4o (Omni)
- Sorties structurées.
- Traitement du texte et de l’image.
- Mode JSON.
- Appel de fonction parallèle.
- Précision et réactivité améliorées.
- Parité avec le texte anglais et les tâches de codage par rapport à GPT-4 Turbo avec Vision.
- Performances supérieures dans les langues non anglaises et dans les tâches de vision.
Entrée : 128 000
Sortie : 16 384
Octobre 2023
gpt-4o-mini (2024-07-18)
GPT-4o mini
- Modèle rapide et peu coûteux, idéal pour remplacer les modèles de série GPT-3.5 Turbo.
- Traitement du texte et de l’image.
- Mode JSON.
- Appel de fonction parallèle.
Entrée : 128 000
Sortie : 16 384
Octobre 2023
gpt-4o (2024-05-13)
GPT-4o (Omni)
- Traitement du texte et de l’image.
- Mode JSON.
- Appel de fonction parallèle.
- Précision et réactivité améliorées.
- Parité avec le texte anglais et les tâches de codage par rapport à GPT-4 Turbo avec Vision.
- Performances supérieures dans les langues non anglaises et dans les tâches de vision.
Entrée : 128 000
Sortie : 4 096
Octobre 2023
gpt-4 (turbo-2024-04-09)
GPT-4 Turbo avec Vision
Nouveau modèle en disponibilité générale.
– Remplacement de tous les précédents modèles GPT-4 en préversion (vision-preview, 1106-Preview, 0125-Preview).
- La disponibilité des fonctionnalités est actuellement différente, selon la méthode d’entrée et le type de déploiement.
Entrée : 128 000
Sortie : 4 096
Décembre 2023

Caution

Nous vous déconseillons d’utiliser des modèles en préversion en production. Nous allons mettre à niveau tous les déploiements de modèles en préversion vers les versions ultérieures ou vers la dernière version stable et en disponibilité générale. Les modèles désignés comme préversion ne suivent pas le cycle de vie standard des modèles Azure OpenAI.

GPT-3.5

Les modèles GPT-3.5 peuvent comprendre et générer un langage naturel ou du code. Le modèle le plus efficace et le plus rentable dans la famille GPT-3.5 est GPT-3.5 Turbo, qui est optimisé pour la conversation et fonctionne également bien pour les tâches d’achèvement traditionnelles. GPT-3.5 Turbo est disponible et utilisable avec l'API de complétion de conversations. GPT-3.5 Turbo Instruct offre des fonctionnalités similaires text-davinci-003 lorsque vous utilisez l’API De saisie semi-automatique au lieu de l’API De saisie semi-automatique de conversation. Nous recommandons d’utiliser GPT-3.5 Turbo et GPT-3.5 Turbo Instruct plutôt que les modèles GPT-3.5 et GPT-3 hérités.

ID de modèle Descriptif Nbre maximal de demandes (jetons) Données d’entraînement (jusqu’à)
gpt-35-turbo (0125) nouveau - Mode JSON.
- Appel de fonction parallèle.
- Sortie reproductible (préversion).
- Précision plus élevée lorsqu’elle répond dans les formats demandés.
- Inclut un correctif pour un bogue qui a provoqué un problème d’encodage de texte pour les appels de fonction de langue autre que l’anglais.
Entrée : 16 385
Sortie : 4 096
Septembre 2021
gpt-35-turbo (1106) Modèle généralement disponible plus ancien.
- Mode JSON.
- Appel de fonction parallèle.
- Sortie reproductible (préversion).
Entrée : 16 385
Sortie : 4 096
Septembre 2021
gpt-35-turbo-instruct (0914) Point de terminaison de saisies semi-automatiques uniquement.
– Remplacement pour des modèles de saisie semi-automatique hérités.
4,097 Septembre 2021

Pour en savoir plus sur l’interaction avec GPT-3.5 Turbo et l’API Chat Completions, consultez notre article détaillé sur la procédure.

Incorporations

text-embedding-3-large est le modèle incorporé le plus récent et le plus capable. Vous ne pouvez pas effectuer de mise à niveau entre les modèles d’incorporation. Pour passer de l’utilisation text-embedding-ada-002 à text-embedding-3-large, vous devez générer de nouvelles incorporations.

  • text-embedding-3-large
  • text-embedding-3-small
  • text-embedding-ada-002

Les rapports OpenAI qui testent montrent que les modèles incorporés de grande et petite troisième génération offrent de meilleures performances de récupération multi-langage moyennes avec le benchmark MIRACL . Ils conservent toujours les performances des tâches anglaises avec le benchmark MTEB .

Benchmark d’évaluation text-embedding-ada-002 text-embedding-3-small text-embedding-3-large
Moyenne MIRACL 31.4 44.0 54.9
Moyenne MTEB 61.0 62.3 64.6

Les modèles d’incorporation de troisième génération prennent en charge la réduction de la taille de l’incorporation via un nouveau paramètre dimensions. En règle générale, les incorporations plus volumineuses sont plus coûteuses du point de vue du calcul, de la mémoire et du stockage. Lorsque vous pouvez ajuster le nombre de dimensions, vous bénéficiez d’un meilleur contrôle sur les coûts et les performances globaux. Le paramètre dimensions n’est pas pris en charge dans toutes les versions de la bibliothèque Python OpenAI 1.x. Pour tirer parti de ce paramètre, nous vous recommandons de procéder à la mise à niveau vers la dernière version : pip install openai --upgrade.

Les tests de référence MTEB d’OpenAI ont constaté que même lorsque les dimensions du troisième modèle de génération sont réduites à moins de 1 536 dimensions de text-embeddings-ada-002, les performances restent légèrement meilleures.

Modèle de génération d’images

Les modèles de génération d’images génèrent des images à partir d’invites de texte que l’utilisateur fournit. Les modèles de série GPT-image-1 sont en préversion d’accès limité. DALL-E 3 est généralement disponible pour être utilisé avec les API REST. DALL-E 2 et DALL-E 3 avec les SDK clients sont en préversion.

Une inscription est requise pour accéder à gpt-image-1, gpt-image-1-mini ou gpt-image-1.5. L’accès est accordé en fonction des critères d’éligibilité de Microsoft. Les clients qui ont accès à d’autres modèles d’accès limité doivent toujours demander l’accès pour ce modèle.

Pour demander l’accès, remplissez un formulaire d’application : Demander l’accès GPT-image-1 ; Appliquez l’accès GPT-image-1.5. Lorsque l’accès est accordé, vous devez créer un déploiement pour le modèle.

Disponibilité de la région

Model Région
dall-e-3 East US
Australia East
Suède Centre
gpt-image-1 Ouest des États-Unis 3 (Norme mondiale)
USA Est 2 (Standard global)
Émirats arabes unis Nord (Norme mondiale)
Pologne Centre (Standard global)
Suède Centre (Standard global)
gpt-image-1-mini Ouest des États-Unis 3 (Norme mondiale)
USA Est 2 (Standard global)
Émirats arabes unis Nord (Norme mondiale)
Pologne Centre (Standard global)
Suède Centre (Standard global)
gpt-image-1.5 Ouest des États-Unis 3 (Norme mondiale)
USA Est 2 (Standard global)
Émirats arabes unis Nord (Norme mondiale)
Pologne Centre (Standard global)
Suède Centre (Standard global)

Modèles de génération de vidéos

Sora est un modèle IA d’OpenAI qui peut créer des scènes vidéo réalistes et imaginatifs à partir d’instructions textuelles. Sora est en préversion.

Disponibilité de la région

Model Région
sora USA Est 2 (Standard global)
Suède Centre (Standard global)
sora-2 USA Est 2 (Standard global)
Suède Centre (Standard global)

Modèles audio

Les modèles audio dans Azure OpenAI sont disponibles via les APIs realtime, completions, et audio.

Modèles audio GPT-4o

Les modèles audio GPT 4o font partie de la famille de modèles GPT-4o et prennent en charge les interactions conversationnelles totalement verbales à faible latence.

Caution

Nous vous déconseillons d’utiliser des versions de prévisualisation en production. Nous allons mettre à niveau tous les déploiements de modèles en préversion vers les versions ultérieures ou vers la dernière version stable et en disponibilité générale. Les modèles désignés comme préversion ne suivent pas le cycle de vie standard des modèles Azure OpenAI.

Les détails concernant les jetons de requête maximum et les données d’entraînement sont disponibles dans le tableau suivant :

ID de modèle Descriptif Nbre maximal de demandes (jetons) Données d’entraînement (jusqu’à)
gpt-4o-mini-audio-preview (2024-12-17)
Audio GPT-4o
Un modèle audio pour la génération audio et de texte. Entrée : 128 000
Sortie : 16 384
Septembre 2023
gpt-4o-audio-preview (2024-12-17)
Audio GPT-4o
Un modèle audio pour la génération audio et de texte. Entrée : 128 000
Sortie : 16 384
Septembre 2023
gpt-4o-realtime-preview (2025-06-03)
Audio GPT-4o
Un modèle audio pour le traitement audio en temps réel. Entrée : 128 000
Sortie : 4 096
Octobre 2023
gpt-4o-realtime-preview (2024-12-17)
Audio GPT-4o
Un modèle audio pour le traitement audio en temps réel. Entrée : 128 000
Sortie : 4 096
Octobre 2023
gpt-4o-mini-realtime-preview (2024-12-17)
Audio GPT-4o
Un modèle audio pour le traitement audio en temps réel. Entrée : 128 000
Sortie : 4 096
Octobre 2023
gpt-realtime (28-08-2025) (GA)
gpt-realtime-mini (2025-10-06)
gpt-realtime-mini-2025-12-15 (2025-12-15)
gpt-audio(28/08/2025)
gpt-audio-mini(06/10/2025)
Un modèle audio pour le traitement audio en temps réel. Input : 28 672
Sortie : 4 096
Octobre 2023

Pour comparer la disponibilité des modèles audio GPT-4o dans toutes les régions, reportez-vous à la table des modèles.

Audio API

Les modèles audio via l’API peuvent être utilisés pour la transcription vocale, la traduction et la synthèse vocale.

Modèles de reconnaissance vocale

ID de modèle Descriptif Nombre maximal de requêtes (taille de fichier audio)
whisper Modèle de reconnaissance vocale à usage général. 25 Mo
gpt-4o-transcribe Modèle de reconnaissance vocale alimenté par GPT-4o. 25 Mo
gpt-4o-mini-transcribe Modèle de reconnaissance vocale alimenté par GPT-4o mini. 25 Mo
gpt-4o-transcribe-diarize Modèle de transcription automatique de la parole avec reconnaissance vocale automatique. 25 Mo
gpt-4o-mini-transcribe-2025-12-15 Modèle de transcription automatique de la parole avec reconnaissance vocale automatique. Amélioration de la précision et de la robustesse de la transcription. 25 Mo

Modèles de traduction vocale

ID de modèle Descriptif Nombre maximal de requêtes (taille de fichier audio)
whisper Modèle de reconnaissance vocale à usage général. 25 Mo

Modèles de synthèse vocale (préversion)

ID de modèle Descriptif
tts Modèle de synthèse vocale optimisé pour la vitesse.
tts-hd Modèle de synthèse vocale optimisé pour la qualité.
gpt-4o-mini-tts Modèle de synthèse vocale alimenté par GPT-4o mini.

Vous pouvez guider la voix pour parler dans un style ou un ton spécifique.
gpt-4o-mini-tts-2025-12-15 Modèle de synthèse vocale alimenté par GPT-4o mini.

Vous pouvez guider la voix pour parler dans un style ou un ton spécifique.

Pour plus d’informations, consultez la disponibilité de la région des modèles audio plus loin dans cet article.

Tableau récapitulatif des modèles et de leur disponibilité par région

Modèles par type de déploiement

Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement :

  • Standard : dispose d’une option de déploiement globale, le routage du trafic globalement pour fournir un débit plus élevé.
  • Provisionné : dispose également d’une option de déploiement global, permettant aux clients d’acheter et de déployer des unités de débit approvisionnées sur l’infrastructure globale Azure.

Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Pour en savoir plus sur les types de déploiement Azure OpenAI, consultez notre guide sur les types de déploiement.

Disponibilité des modèles standard dans le monde

Region gpt-5.2, 2025-12-11 gpt-5.2-chat, 2025-12-11 gpt-5.1, 2025-11-13 gpt-5.1-chat, 2025-11-13 gpt-5.1-codex, 2025-11-13 gpt-5.1-codex-mini, 2025-11-13 gpt-5-pro, 2025-10-06 gpt-5, 2025-08-07 gpt-5-mini, 2025-08-07 gpt-5-nano, 2025-08-07 gpt-5-chat, 2025-08-07 gpt-5-chat, 2025-10-03 o3-pro, 2025-06-10 codex-mini, 2025-05-16 sora, 2025-05-02 model-router, 2025-08-07 model-router, 2025-05-19 model-router, 2025-11-18 o3, 2025-04-16 o4-mini, 2025-04-16 gpt-image-1, 2025-04-15 gpt-4.1, 2025-04-14 gpt-4.1-nano, 2025-04-14 gpt-4.1-mini, 2025-04-14 aperçu-utilisation-ordinateur, 2025-03-11 o3-mini, 2025-01-31 o1, 2024-12-17 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o, 2024-11-20 gpt-4o-mini, 2024-07-18 text-embedding-3-small, 1 text-embedding-3-large, 1 text-embedding-ada-002, 2 gpt-4o-realtime-preview, 2024-12-17 gpt-4o-realtime-preview, 2025-06-03 gpt-4o-audio-preview, 2024-12-17 gpt-4o-mini-realtime-preview, 2024-12-17 gpt-4o-mini-audio-preview, 2024-12-17 gpt-4o-transscribe, 2025-03-20 gpt-4o-mini-tts, 2025-03-20 gpt-4o-mini-transscribe, 2025-03-20 gpt-5-codex, 2025-09-15 gpt-realtime, 2025-08-28 gpt-audio-mini, 2025-10-06 gpt-image-1-mini, 2025-10-06 gpt-realtime-mini, 2025-10-06 gpt-audio, 2025-08-28 sora-2, 2025-10-06 o3-deep-research, 2025-06-26 gpt-4o-transcribe-diarize, 2025-10-15
australiaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
brazilsouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
canadaeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
centralus - - - - - - - - - - - - - - - - - - - - - - - - -
eastus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
eastus2 -
francecentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
italynorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
japaneast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
koreacentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
northcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
norwayeast - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
polandcentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southcentralus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southeastasia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
southindia - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
spaincentral - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
swedencentral - - -
switzerlandnorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uaenorth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
uksouth - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westeurope - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
westus3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Note

o3-deep-research est actuellement disponible uniquement avec le service Foundry Agent. Pour en savoir plus, consultez les instructions de l’outil Deep Research.

Ce tableau n'inclut pas les informations de disponibilité régionale détaillée. Pour plus d’informations, consultez la section d’optimisation .

Modèles de déploiement standard (régionaux) par point de terminaison

Complétions de conversation

Region o1-preview, 2024-09-12 o1-mini, 2024-09-12 gpt-4o, 2024-05-13 gpt-4o, 2024-11-20 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, turbo-2024-04-09 gpt-35-turbo, 1106 gpt-35-turbo, 0125
australiaeast - - - - - -
canadaeast - - - - - -
eastus -
eastus2 -
francecentral - - - - - -
japaneast - - - - - - -
northcentralus -
norwayeast - - - - - - - -
southcentralus -
southindia - - - - - -
swedencentral
switzerlandnorth - - - - - - -
uksouth - - - - - -
westeurope - - - - - - - -
westus
westus3 -

Note

o1-mini est actuellement disponible pour tous les clients pour le déploiement standard global.

Une sélection de clients a reçu un accès de déploiement standard (régional) à o1-mini dans le cadre de la version à accès limité o1-preview. À ce stade, l’accès aux déploiements standard (régionaux) o1-mini n’est pas développé.

Pour en savoir plus sur la façon dont Azure OpenAI gère les mises à niveau des versions de modèle, consultez Versions de modèle. Pour savoir comment afficher et configurer les paramètres de version de modèle de vos déploiements GPT-3.5 Turbo, consultez Utilisation des modèles.

Réglage des modèles

Note

Les régions prises en charge pour le réglage précis peuvent varier si vous utilisez des modèles Azure OpenAI dans un projet Microsoft Foundry ou en dehors d’un projet.

ID de modèle Régions standard Global Developer Nbre maximal de demandes (jetons) Données d’entraînement (jusqu’à) Modality
gpt-4o-mini
(2024-07-18)
Centre-Nord des États-Unis
Suède Centre
Entrée : 128 000
Sortie : 16 384
Exemple de contexte d’entraînement : 65 536
Octobre 2023 Conversation écrite
gpt-4o
(2024-08-06)
Est des États-Unis 2
Centre-Nord des États-Unis
Suède Centre
Entrée : 128 000
Sortie : 16 384
Exemple de contexte d’entraînement : 65 536
Octobre 2023 Texte et vision en texte
gpt-4.1
(2025-04-14)
Centre-Nord des États-Unis
Suède Centre
Entrée : 128 000
Sortie : 16 384
Exemple de contexte d’entraînement : 65 536
Mai 2024 Texte et vision en texte
gpt-4.1-mini
(2025-04-14)
Centre-Nord des États-Unis
Suède Centre
Entrée : 128 000
Sortie : 16 384
Exemple de contexte d’entraînement : 65 536
Mai 2024 Conversation écrite
gpt-4.1-nano (2025-04-14) Centre-Nord des États-Unis
Suède Centre
Entrée : 128 000
Sortie : 16 384
Longueur de contexte d’exemple d’apprentissage : 32 768
Mai 2024 Conversation écrite
o4-mini
(2025-04-16)
Est des États-Unis 2
Suède Centre
Entrée : 128 000
Sortie : 16 384
Exemple de contexte d’entraînement : 65 536
Mai 2024 Conversation écrite
Ministral-3B (préversion)
(2411)
Non prise en charge Entrée : 128 000
Sortie : Inconnu
Longueur du contexte de l’exemple d’entraînement : inconnue
Inconnu Conversation écrite
Qwen-32B (préversion) Non prise en charge Entrée : 8 000
Sortie : 32 000
Longueur du contexte d'exemple de formation : 8192
Juillet 2024 Conversation écrite

Note

La formation globale offre une formation plus abordable par jeton, mais n’offre pas de résidence des données. Il est actuellement disponible pour les ressources Foundry dans les régions suivantes :

  • Australia East
  • Brazil South
  • Canada Central
  • Canada Est
  • East US
  • Est des États-Unis 2
  • France Centrale
  • Allemagne Centre-Ouest
  • Italie Nord
  • Japon Est (sans support de vision)
  • Korea Central
  • Centre-Nord des États-Unis
  • Norvège Est
  • Pologne Centre (pas de support 4.1-nano)
  • Asie du Sud-Est
  • Afrique du Sud Nord
  • États-Unis - partie centrale méridionale
  • South India
  • Espagne Centre
  • Suède Centre
  • Suisse Ouest
  • Suisse Nord
  • UK South
  • Europe Ouest
  • West US
  • USA Ouest 3

Assistants (préversion)

Pour les Assistants, vous avez besoin d’une combinaison d’un modèle et d’une région tous les deux pris en charge. Certains outils et certaines fonctionnalités nécessitent les derniers modèles. Les modèles suivants sont disponibles dans l’API Assistants, le Kit de développement logiciel (SDK) et Foundry. Le tableau suivant concerne le déploiement standard. Pour plus d’informations sur la disponibilité de l’unité de débit provisionnée, consultez le débit approvisionné. Les modèles et les régions répertoriés peuvent être utilisés avec assistants v1 et v2. Vous pouvez utiliser des modèles Global Standard s’ils sont pris en charge dans les régions suivantes.

Région gpt-4o, 2024-05-13 gpt-4o, 2024-08-06 gpt-4o-mini, 2024-07-18 gpt-4, 0613 gpt-4, 1106-Aperçu gpt-4, 0125-Aperçu gpt-4, turbo-2024-04-09 gpt-4-32k, 0613 gpt-35-turbo, 0613 gpt-35-turbo, 1106 gpt-35-turbo, 0125 gpt-35-turbo-16k, 0613
australiaeast - - - - -
eastus - - - -
eastus2 - - - -
francecentral - - - - - -
japaneast - - - - - - - - -
norwayeast - - - - - - - - - - -
southindia - - - - - - - - -
swedencentral - -
uksouth - - - - - -
westus - - - - -
westus3 - - - - - -

Mise hors service du modèle

Pour obtenir les informations les plus récentes sur les mises hors service des modèles, reportez-vous au guide de mise hors service des modèles.

Note

Les modèles foundry vendus directement par Azure incluent également tous les modèles Azure OpenAI. Pour en savoir plus sur ces modèles, basculez vers la collection de modèles Azure OpenAI en haut de cet article.

Modèles Black Forest Labs vendus directement par Azure

La collection Black Forest Labs (BFL) de modèles de génération d’images inclut FLUX.2 [pro] pour la génération et la modification d’images via des invites de texte et d’image, FLUX.1 Kontext [pro] pour la génération et la modification dans le contexte, et FLUX1.1 [pro] pour la génération de texte à image.

Vous pouvez exécuter ces modèles via l'API du fournisseur de services BFL et via les endpoints d'images/générations et d'images/édits.

Model Type &point de terminaison d’API Capacités Type de déploiement (disponibilité de la région) Type de projet
FLUX.2-pro Génération d’images
- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Entrée : texte et image (32 000 jetons et jusqu’à 8 imagesi)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Prise en charge multi-référence pour jusqu’à 8 imagesii ; plus fondée sur les connaissances réelles ; une plus grande flexibilité de sortie ; performances améliorées
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement) prend en charge tous les paramètres.
- Standard global (toutes les régions) Foundry, basé sur un hub
FLUX.1-Kontext-pro Génération d’images
- API d’image : https://<resource-name>/openai/deployments/{deployment-id}/images/generations
and
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrée : texte et image (5 000 jetons et 1 image)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Cohérence des caractères, modification avancée
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement)seed, aspect ratio, input_image, prompt_unsampling, safety_toleranceoutput_format
- Standard global (toutes les régions) Foundry, basé sur un hub
FLUX-1.1-pro Génération d’images
- API d’image : https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrée : texte (5 000 jetons et 1 image)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Vitesse d’inférence rapide, adhésion rapide forte, tarification concurrentielle, génération évolutive
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement)width, height, prompt_unsampling, seed, safety_toleranceoutput_format
- Standard global (toutes les régions) Foundry, basé sur un hub
Model Type &point de terminaison d’API Capacités Type de déploiement (disponibilité de la région)
FLUX.2-pro Génération d’images
- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-2-pro
- Entrée : texte (32 000 jetons et jusqu’à 8 imagesi)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Prise en charge multi-référence pour jusqu’à 8 imagesii ; plus fondée sur les connaissances réelles ; une plus grande flexibilité de sortie ; performances améliorées
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement) prend en charge tous les paramètres.
- Standard global (toutes les régions)
FLUX.1-Kontext-pro Génération d’images
- API d’image : https://<resource-name>/openai/deployments/{deployment-id}/images/generations
and
https://<resource-name>/openai/deployments/{deployment-id}/images/edits

- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-kontext-pro?api-version=preview
- Entrée : texte et image (5 000 jetons et 1 image)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Cohérence des caractères, modification avancée
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement)seed, aspect ratio, input_image, prompt_unsampling, safety_toleranceoutput_format
- Standard global (toutes les régions)
FLUX-1.1-pro Génération d’images
- API d’image : https://<resource-name>/openai/deployments/{deployment-id}/images/generations

- API du fournisseur de services BFL : <resource-name>/providers/blackforestlabs/v1/flux-pro-1.1?api-version=preview
- Entrée : texte (5 000 jetons et 1 image)
- Sortie: Une image
- Appel d’outils : Non
- Formats de réponse : Image (PNG et JPG)
- Fonctionnalités clés : Vitesse d’inférence rapide, adhésion rapide forte, tarification concurrentielle, génération évolutive
- Paramètres supplémentaires :(Dans l’API spécifique au fournisseur uniquement)width, height, prompt_unsampling, seed, safety_toleranceoutput_format
- Standard global (toutes les régions)

i,ii La prise en charge de plusieurs images de référence (jusqu’à huit) est disponible pour FLUX.2[pro] à l’aide de l’API, mais pas dans le terrain de jeu. Consultez les exemples de code suivants pour FLUX.2[pro].

Exemples de code pour FLUX.2[pro]

Génération d’images

  • Entrée : texte
  • Sortie : une image
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \ 
  -H "Content-Type: application/json" \ 
  -H "Authorization: Bearer {API_KEY}" \ 
  -d '{ 
      "model": "FLUX.2-pro" 
      "prompt": "A photograph of a red fox in an autumn forest", 
      "width": 1024, 
      "height": 1024, 
      "seed": 42, 
      "safety_tolerance": 2, 
      "output_format": "jpeg", 
    }' 

Modification d’image

  • Entrée : jusqu’à huit images codées en bits 64
  • Sortie : une image
curl -X POST https://<your-resource-name>.api.cognitive.microsoft.com/providers/blackforestlabs/v1/flux-2-pro?api-version… \
  -H "Content-Type: application/json" \ 
  -H "Authorization: Bearer {API_KEY}" \ 
  -d '{ 
      "model": "FLUX.2-pro", 
      "prompt": "Apply a cinematic, moody lighting effect to all photos. Make them look like scenes from a sci-fi noir film", 
      "output_format": "jpeg", 
      "input_image" : "/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDA.......", 
      "input_image_2" : "iVBORw0KGgoAAAANSUhEUgAABAAAAAQACAIAAADwf........" 
    }' 

Consultez cette collection de modèles dans le portail Microsoft Foundry.

Modèles cohésés vendus directement par Azure

La famille de modèles Cohere inclut divers modèles optimisés pour différents cas d’utilisation, notamment les complétions de conversation, le rerank/la classification de texte et les embeddings. Les modèles Cohere sont optimisés pour différents cas d’usage qui incluent le raisonnement, le résumé et la réponse aux questions.

Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
Cohere-rerank-v4.0-pro classification de texte (réordonnement) - Entrée : texte
- Sortie : texte
- Langues :en, , fr, esit, , , dept-brjazh-cnarvihiruidnl
- Appel d’outils : Non
- Formats de réponse : JSON
- Standard global (toutes les régions)
- Calcul managé
Foundry, basé sur un hub
Cohere-rerank-v4.0-fast classification de texte (réordonnement) - Entrée : texte
- Sortie : texte
- Langues :en, , fr, esit, , , dept-brjazh-cnarvihiruidnl
- Appel d’outils : Non
- Formats de réponse : JSON
- Standard global (toutes les régions)
- Calcul managé
Foundry, basé sur un hub
Cohere-command-a chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (8 182 unités)
- Langues :en, , fr, esit, de, pt-brjakozh-cnetar
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions) Foundry, basé sur un hub
embed-v-4-0 embeddings - Entrée : texte (512 jetons) et images (2MM pixels)
- Sortie : Vecteur (256, 512, 1024, 1536 dimensions)
- Langues :en, , fr, esit, de, pt-brjakozh-cnetar
- Standard global (toutes les régions) Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
Cohere-rerank-v4.0-pro classification de texte (réordonnement) - Entrée : texte
- Sortie : texte
- Langues :en, , fr, esit, , , dept-brjazh-cnarvihiruidnl
- Appel d’outils : Non
- Formats de réponse : JSON
- Standard global (toutes les régions)
- Calcul managé
Cohere-rerank-v4.0-fast classification de texte (réordonnement) - Entrée : texte
- Sortie : texte
- Langues :en, , fr, esit, , , dept-brjazh-cnarvihiruidnl
- Appel d’outils : Non
- Formats de réponse : JSON
- Standard global (toutes les régions)
- Calcul managé
Cohere-command-a chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (8 182 unités)
- Langues :en, , fr, esit, de, pt-brjakozh-cnetar
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
embed-v-4-0 embeddings - Entrée : texte (512 jetons) et images (2MM pixels)
- Sortie : Vecteur (256, 512, 1024, 1536 dimensions)
- Langues :en, , fr, esit, de, pt-brjakozh-cnetar
- Standard global (toutes les régions)

Consultez la collection de modèles Cohere dans le portail Foundry.

Modèles DeepSeek vendus directement par Azure

La famille DeepSeek de modèles comprend plusieurs modèles de raisonnement, qui excellent au niveau des tâches de raisonnement à l’aide d’un processus de formation pas à pas, tel que le langage, le raisonnement scientifique et les tâches de codage.

Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
DeepSeek-V3.2-Speciale chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (128 000 jetons)
- Sortie : (128 000 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions) Foundry, basé sur un hub
DeepSeek-V3.2 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (128 000 jetons)
- Sortie : (128 000 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions) Foundry, basé sur un hub
DeepSeek-V3.1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (131 072 jetons)
- Sortie : (131 072 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions) Foundry, basé sur un hub
DeepSeek-R1-0528 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)
Foundry, basé sur un hub
DeepSeek-V3-0324 chat-completion - Entrée : texte (131 072 jetons)
- Sortie : (131 072 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)
Foundry, basé sur un hub
DeepSeek-R1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)
Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
DeepSeek-V3.2-Speciale chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (128 000 jetons)
- Sortie : (128 000 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
DeepSeek-V3.2 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (128 000 jetons)
- Sortie : (128 000 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
DeepSeek-V3.1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (131 072 jetons)
- Sortie : (131 072 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
DeepSeek-R1-0528 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)
DeepSeek-V3-0324 chat-completion - Entrée : texte (131 072 jetons)
- Sortie : (131 072 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)
DeepSeek-R1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions)
- Provisionné global (toutes les régions)

Consultez cette collection de modèles dans le portail Foundry.

Modèles meta vendus directement par Azure

Les modèles et outils Meta Llama font partie d’une collection de modèles de raisonnement de texte et d’image d’IA générative préentraînés et affinés. La plage de modèles Meta est mise à l’échelle pour inclure :

  • Des petits modèles de langage (SLM) tels que les modèles 1B et 3B Base et Instruct pour une inférence sur appareil et en périphérie
  • Des grands modèles de langage (LLM) de taille moyenne tels que les modèles 7B, 8B et 70B Base et Instruct
  • Des modèles de haut niveau de performance tels que Meta Llama 3.1-405B Instruct pour des cas d’usage tels que la génération de données synthétiques et la distillation.
Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrée : texte et images (jetons 1M)
- Sortie : texte (jetons 1M)
- Langues :ar, en, fr, de, hi, id, it, pt, es, tl, th, et vi
- Appel d’outils : Non
- Formats de réponse : Texte
- Standard global (toutes les régions) Foundry, basé sur un hub
Llama-3.3-70B-Instruct chat-completion - Entrée : texte (128 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en, , de, frit, pt, hi, es, etth
- Appel d’outils : Non
- Formats de réponse : Texte
- Standard global (toutes les régions) Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
Llama-4-Maverick-17B-128E-Instruct-FP8 chat-completion - Entrée : texte et images (jetons 1M)
- Sortie : texte (jetons 1M)
- Langues :ar, en, fr, de, hi, id, it, pt, es, tl, th, et vi
- Appel d’outils : Non
- Formats de réponse : Texte
- Standard global (toutes les régions)
Llama-3.3-70B-Instruct chat-completion - Entrée : texte (128 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en, , de, frit, pt, hi, es, etth
- Appel d’outils : Non
- Formats de réponse : Texte
- Standard global (toutes les régions)

Consultez cette collection de modèles dans le portail Foundry. Vous trouverez également plusieurs modèles Meta disponibles auprès des partenaires et de la communauté.

Modèles Microsoft vendus directement par Azure

Les modèles Microsoft incluent différents groupes de modèles tels que le routeur de modèles, les modèles MAI, les modèles Phi, les modèles IA de soins de santé, etc. Consultez la collection de modèles Microsoft dans le portail Foundry. Vous trouverez également plusieurs modèles Microsoft disponibles auprès des partenaires et de la communauté.

Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
model-router1 chat-completion Plus d’informations dans la vue d’ensemble d’un modèle de routeur.
- Entrée : texte, image
- Sortie : texte (nombre maximal de jetons de sortie varie de2)
Fenêtre contextuelle : 200 0003
- Langues :en
- Standard global (USA Est 2, Suède Centre)
- Data Zone standard4 (États-Unis Est 2, Suède centrale)
Foundry, basé sur un hub
MAI-DS-R1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions) Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
model-router1 chat-completion Plus d’informations dans la vue d’ensemble d’un modèle de routeur.
- Entrée : texte, image
- Sortie : texte (nombre maximal de jetons de sortie varie de2)
Fenêtre contextuelle : 200 0003
- Langues :en
- Standard global (USA Est 2, Suède Centre)
- Data Zone standard4 (États-Unis Est 2, Suède centrale)
MAI-DS-R1 chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (163 840 jetons)
- Sortie : (163 840 jetons)
- Langues :en et zh
- Appel d’outils : Non
- Formats de réponse : Texte.
- Standard global (toutes les régions)

Versiondu modèle de routeur2025-11-18 1. Les versions antérieures (2025-08-07 et 2025-05-19) sont également disponibles.

2Le nombre maximal de jetons de sortie varie selon les modèles sous-jacents dans le routeur de modèles. Par exemple, 32 768 (GPT-4.1 series), 100 000 (o4-mini), 128 000 (gpt-5 reasoning models) et 16 384 (gpt-5-chat).

3Fenêtres contextuelles plus volumineuses sont compatibles avec certains des modèles sous-jacents du routeur de modèle. Cela signifie qu’un appel d’API avec un contexte plus large réussit uniquement si l’invite est acheminée vers l’un de ces modèles. Dans le cas contraire, l’appel échoue.

4 La facturation des déploiements de routeurs de modèle standard de zone de données ne commence pas plus tôt que le 1er novembre 2025.

Modèles Mistral vendus directement par Azure

Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
Mistral-Large-3 chat-completion - Entrée : texte, image
- Sortie : texte
- Langues :en, fr, de, es, it, pt, nl, zh, ja, ko, et ar
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (USA Ouest 3) Fonderie
mistral-document-ai-2505 Image à texte - Entrée : images ou pages PDF ( 30 pages, fichier PDF max. 30 Mo)
- Sortie : texte
- Langues :en
- Appel d’outils : non
- Formats de réponse : Texte, JSON, Markdown
- Standard global (toutes les régions)
- Norme de zone de données (États-Unis et UE)
Fonderie
Model Type Capacités Type de déploiement (disponibilité de la région)
Mistral-Large-3 chat-completion - Entrée : texte, image
- Sortie : texte
- Langues :en, fr, de, es, it, pt, nl, zh, ja, ko, et ar
- Appel de l’outil : Oui
- Formats de réponse: Texte, JSON
- Standard global (USA Ouest 3)
mistral-document-ai-2505 Image à texte - Entrée : images ou pages PDF ( 30 pages, fichier PDF max. 30 Mo)
- Sortie : texte
- Langues :en
- Appel d’outils : non
- Formats de réponse : Texte, JSON, Markdown
- Standard global (toutes les régions)
- Norme de zone de données (États-Unis et UE)

Consultez la collection de modèles Mistral dans le portail Foundry. Il existe également plusieurs modèles Mistral disponibles auprès des partenaires et de la communauté.

Modèles IA Moonshot vendus directement par Azure

Les modèles IA Moonshot incluent Kimi K2 Thinking, la dernière version la plus capable du modèle de pensée open source. Kimi K2 a été construit en tant qu’agent de pensée qui justifie pas à pas tout en appelant dynamiquement des outils. Il établit un nouvel état de l'art sur l'Examen Final de l'Humanité (HLE), BrowseComp et d'autres benchmarks en augmentant considérablement la profondeur du raisonnement en plusieurs étapes et en maintenant une utilisation stable de l'outil au cours de 200 à 300 appels séquentiels.

Les principales fonctionnalités de Kimi K2 Thinking sont les suivantes :

  • Réflexion Approfondie & Orchestration d’Outils : Formé de bout en bout pour enchaîner le raisonnement avec des appels de fonctions, ce qui permet ainsi la recherche autonome, le codage et l’écriture de workflows qui durent des centaines d’étapes sans dérive.
  • Quantisation Native INT4 : « Quantization-Aware Training » (QAT) est utilisé dans la phase post-entraînement pour atteindre un doublement de vitesse sans perte de qualité en mode faible latence.
  • Agence Long-Horizon stable : Maintient un comportement cohérent orienté objectif sur jusqu’à 200 à 300 appels d’outils consécutifs, dépassant les modèles précédents qui se dégradent après 30 à 50 étapes.
Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
Kimi-K2-Thinking chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (262 144 jetons)
- Sortie : texte (262 144 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse : Texte
- Standard global (toutes les régions) Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
Kimi-K2-Thinking chat-completion
(avec le contenu du raisonnement)
- Entrée : texte (262 144 jetons)
- Sortie : texte (262 144 jetons)
- Langues :en et zh
- Appel de l’outil : Oui
- Formats de réponse : Texte
- Standard global (toutes les régions)

Consultez cette collection de modèles dans le portail Foundry.

Modèles xAI vendus directement par Azure

Les modèles Grok de xAI dans Les modèles Foundry incluent un ensemble diversifié de modèles conçus pour exceller dans différents domaines d’entreprise avec différentes fonctionnalités et points de prix, notamment :

  • Grok 3, un modèle sans raisonnement préentraîné par le centre de données Colossus, est adapté aux cas d’usage métier tels que l’extraction de données, le codage et la synthèse de texte, avec des capacités exceptionnelles de suivi des instructions. Il prend en charge une fenêtre de contexte de 131 072 jetons, ce qui lui permet de gérer des entrées étendues tout en conservant la cohérence et la profondeur, et est habile à établir des connexions entre les domaines et les langues.

  • Grok 3 Mini est un modèle de raisonnement léger formé pour aborder les problèmes agentiques, de codage, mathématiques et de science profonde avec le calcul au moment du test. Il prend également en charge une fenêtre de contexte de 131 072 tokens pour comprendre les codebases et les documents d'entreprise, et excelle dans l'utilisation d'outils pour résoudre des problèmes logiques complexes dans des environnements nouveaux, fournissant des traces de raisonnement brutes pour que les utilisateurs puissent les inspecter avec des budgets de réflexion ajustables.

  • Grok Code Fast 1, un modèle de raisonnement rapide et efficace conçu pour une utilisation dans les applications de codage agentique. Il a été préentraîné sur un mélange de données axé sur le codage, puis post-formé sur les démonstrations de diverses tâches de codage et l’utilisation d’outils, ainsi que des démonstrations de comportements de refus corrects en fonction de la politique de sécurité de xAI. L’inscription est requise pour accéder au modèle grok-code-fast-1.

  • Grok 4 Fast, un modèle de langage optimisé pour l’efficacité qui offre des fonctionnalités de raisonnement proche de Grok 4 avec une latence et un coût nettement inférieurs, et peut contourner entièrement le raisonnement pour les applications ultra-rapides. Il est formé pour une utilisation sûre et efficace des outils, avec des comportements de refus intégrés, une invite système fixe appliquant la sécurité, et des filtres d’entrée pour empêcher toute mauvaise utilisation.

  • Grok 4 est le dernier modèle de raisonnement de xAI avec des fonctionnalités avancées de raisonnement et d’utilisation d’outils, ce qui lui permet d’obtenir de nouvelles performances de pointe dans les benchmarks académiques et industriels difficiles. L’inscription est requise pour l’accès au modèle grok-4. Contrairement aux modèles Grok 4 Fast (raisonnement et non-raisonnement), Grok 4 ne prend pas en charge l’entrée d’images.

Model Type Capacités Type de déploiement (disponibilité de la région) Type de projet
grok-4 chat-completion - Entrée : texte (256 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions) Foundry, basé sur un hub
grok-4-fast-reasoning chat-completion - Entrée : texte, image (2 000 000 jetons)
- Sortie : texte (2 000 000 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
Foundry, basé sur un hub
grok-4-fast-non-reasoning chat-completion - Entrée : texte, image (2 000 000 jetons)
- Sortie : texte (2 000 000 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
Foundry, basé sur un hub
grok-code-fast-1 chat-completion - Entrée : texte (256 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions) Foundry, basé sur un hub
grok-3 chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (131 072 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
Foundry, basé sur un hub
grok-3-mini chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (131 072 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
Foundry, basé sur un hub
Model Type Capacités Type de déploiement (disponibilité de la région)
grok-4 chat-completion - Entrée : texte, image (256 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
grok-4-fast-reasoning chat-completion - Entrée : texte, image (2 000 000 jetons)
- Sortie : texte (2 000 000 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
grok-4-fast-non-reasoning chat-completion - Entrée : texte, image (2 000 000 jetons)
- Sortie : texte (2 000 000 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
grok-code-fast-1 chat-completion - Entrée : texte (256 000 jetons)
- Sortie : texte (8 192 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
grok-3 chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (131 072 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)
grok-3-mini chat-completion - Entrée : texte (131 072 jetons)
- Sortie : texte (131 072 jetons)
- Langues :en
- Appel d’outils : oui
- Formats de réponse : texte
- Standard global (toutes les régions)
- Standard de zone de données (États-Unis)

Consultez la collection de modèles xAI dans le portail Foundry.

Disponibilité de la région de modèle par type de déploiement

Les modèles foundry vous donnent des choix pour la structure d’hébergement qui correspond à vos modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement :

  • Standard : dispose d’une option de déploiement globale, le routage du trafic globalement pour fournir un débit plus élevé.
  • Provisionné : dispose également d’une option de déploiement globale, ce qui vous permet d’acheter et de déployer des unités de débit approvisionnées sur l’infrastructure globale Azure.

Tous les déploiements effectuent les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances diffèrent. Pour plus d’informations sur les types de déploiement, consultez Types de déploiement dans Les modèles Foundry.

Disponibilité des modèles standard dans le monde

Region DeepSeek-R1-0528 DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-V3.1 FLUX.1-Kontext-pro FLUX-1.1-pro grok-4 grok-4-fast-reasoning grok-4-fast-non-reasoning grok-code-fast-1 grok-3 grok-3-mini Llama-4-Maverick-17B-128E-Instruct-FP8 Llama-3.3-70B-Instruct MAI-DS-R1 mistral-document-ai-2505
australiaeast
brazilsouth
canadaeast
eastus
eastus2
francecentral
germanywestcentral
italynorth
japaneast
koreacentral
northcentralus
norwayeast
polandcentral
southafricanorth
southcentralus
southindia
spaincentral
swedencentral
switzerlandnorth
switzerlandwest
uaenorth
uksouth
westeurope
westus
westus3

Modèles ouverts et personnalisés

Le catalogue de modèles offre un plus grand choix de modèles, à partir d’une plus large gamme de fournisseurs. Pour ces modèles, vous ne pouvez pas utiliser l’option de déploiement standard dans les ressources Microsoft Foundry, où les modèles sont fournis en tant qu’API. Au lieu de cela, pour déployer ces modèles, vous devrez peut-être les héberger sur votre infrastructure, créer un hub IA et fournir le quota de calcul sous-jacent pour héberger les modèles.

De plus, ces modèles peuvent être protégés par l’accès ouvert ou l’adresse IP. Dans les deux cas, vous devez les déployer dans des offres de calcul managées dans Foundry. Pour commencer, consultez Procédure : Déployer sur un calcul managé.