你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Foundry 模型目录精选模型

Foundry 模型目录提供来自各种提供商的大量模型。您有多种选项可以从模型目录中部署模型。本文列出了模型目录中的特色模型，这些模型可以通过标准部署在Microsoft的服务器上部署和托管。对于其中一些模型，还可以在基础结构上托管这些模型，以便通过托管计算进行部署。请参阅支持的部署选项的可用模型，以在目录中查找可通过托管计算或标准部署进行部署的模型。

要对模型执行推断，某些模型（如 Nixtla 的 TimeGEN-1 和 Cohere rerank）需要使用模型提供者的自定义 API。其他支持使用 Azure AI 模型推理进行推理。可以通过查看模型目录中的模型卡来查找有关各个模型的更多详细信息。

AI21 实验室

Jamba 家族模型是 AI21 基于 Mamba 的商用级大型语言模型 (LLM)，它使用 AI21 自己的混合 Mamba-Transformer 架构。它是 AI21 混合结构化状态空间模型 (SSM) 转换器 Jamba 模型经过了指令优化的版本。 Jamba 系列模型专用于可靠的商业用途，可提供出色的质量和性能。

Model	类型	Capabilities
AI21-Jamba-1.5-Mini	chat-completion	- 输入：文本（262,144 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
AI21-Jamba-1.5-Large	chat-completion	- 输入：文本（262,144 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出

在模型目录中查看此模型集合。

Azure OpenAI

Microsoft Foundry Models 中的 Azure OpenAI 提供了一组具有不同功能和价位的不同模型。这些模型包括：

为处理推理任务和问题解决任务设计的最先进的模型，具有更好的针对性和功能
可以理解和生成自然语言和代码的模型
可以将语音听录和翻译为文本的模型

Model	类型	Capabilities
o3-mini	chat-completion	- 输入：文本和图像（200,000 个标记） - 输出：文本（100,000 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
o1	聊天完成（包含图像）	- 输入：文本和图像（200,000 个标记） - 输出：文本（100,000 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
o1-preview	chat-completion	- 输入：文本（128,000 个标记） - 输出：文本（32,768 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
o1-mini	chat-completion	- 输入：文本（128,000 个标记） - 输出：文本（65,536 个标记） - 工具调用：无 - 响应格式：文本
gpt-4o-realtime-preview	实时	- 输入：控制、文本和音频（131,072 个标记） - 输出：文本和音频（16,384 个标记） - 工具调用：是 - 响应格式：文本、JSON
gpt-4o	聊天完成（包含图像和音频内容）	- 输入：文本、图像和音频（131,072 个标记） - 输出：文本（16,384 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
gpt-4o-mini	聊天完成（包含图像和音频内容）	- 输入：文本、图像和音频（131,072 个标记） - 输出：文本（16,384 个标记） - 工具调用：是 - 响应格式：文本、JSON、结构化输出
text-embedding-3-large	embeddings	- 输入：文本（8,191 个标记） - 输出：矢量（3,072 维）
text-embedding-3-small	embeddings	- 输入：文本（8,191 个标记） - 输出：矢量（1,536 dim.）

在模型目录中查看此模型集合。

Cohere

Cohere 系列模型包括针对各种用途优化的不同模型，包括重新排序、聊天生成和嵌入模型。

Cohere 命令和嵌入

下表列出了可以通过 Azure AI 模型推理推断的 Cohere 模型。

Model	类型	Capabilities
Cohere-command-A	chat-completion	- 输入：文本（256,000 个标记） - 输出：文本（8,000 个标记） - 工具调用：是 - 响应格式：文本
Cohere-command-r-plus-08-2024	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Cohere-command-r-08-2024	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Cohere-command-r-plus (deprecated)	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Cohere-command-r (deprecated)	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Cohere-embed-4	embeddings image-embeddings	- 输入：图像、文本 - 输出：图像、文本（128,000 个令牌） - 工具调用：是 - 响应格式：图像、文本
Cohere-embed-v3-english	embeddings image-embeddings	- 输入：文本（512 个标记） - 输出：矢量（1,024维）
Cohere-embed-v3-multilingual	embeddings image-embeddings	- 输入：文本（512 个标记） - 输出：矢量（1,024维）

推理示例: Cohere 命令和嵌入

有关如何使用 Cohere 模型的更多示例，请参阅以下示例：

Description	语言	Sample
Web 请求	Bash	Command-R Command-R+ cohere-embed.ipynb
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
OpenAI SDK（实验性）	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

Description	Packages	Sample
使用 Cohere 嵌入项创建本地 Facebook AI 相似性搜索 (FAISS) 矢量索引 - Langchain	`langchain`、`langchain_cohere`	cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 根据本地 FAISS 矢量索引中的数据来回答问题 - Langchain	`langchain`、`langchain_cohere`	command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Langchain	`langchain`、`langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Cohere SDK	`cohere`、`azure_search_documents`	cohere-aisearch-rag.ipynb
使用 LangChain 调用 Command R+ 工具/函数	`cohere`、`langchain`、`langchain_cohere`	command_tools-langchain.ipynb

Cohere 重新排序

下表列出了 Cohere 重排序模型。若要使用这些重新调整模型执行推理，需要使用表中列出的 Cohere 自定义重新调整 API。

Model	类型	推理 API
Cohere-rerank-v3.5	rerank 文本分类	Cohere 的 v2/rerank API
Cohere-rerank-v3-english (deprecated)	rerank 文本分类	Cohere 的 v2/rerank API Cohere 的 v1/rerank API
Cohere-rerank-v3-multilingual (deprecated)	rerank 文本分类	Cohere 的 v2/rerank API Cohere 的 v1/rerank API

Cohere Rerank 模型的定价

查询(不要与用户的查询混淆)是一种定价计量，是指与用作 Cohere Rerank 模型的推理输入的标记关联的成本。 Cohere 将单个搜索单元计为一个查询，最多可为 100 个文档排序。当文档长度加上搜索查询的长度超过 500 个标记(对于 Cohere-rerank-v3.5)或超过 4096 个标记(对于 Cohere-rerank-v3-English 和 Cohere-rerank-v3-multilingual）时，文档会被拆分为多个部分，每个部分计为一个单独的文档。

请参阅模型目录中的 Cohere 模型集合。

Core42

Core42 包含阿拉伯语和英语的自回归双语 LLM，在阿拉伯语中具有最先进的功能。

Model	类型	Capabilities
jais-30b-chat	chat-completion	- 输入：文本（8,192 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON

在模型目录中查看此模型集合。

推理示例：Core42

有关如何使用 Jais 模型的更多示例，请参阅以下示例：

Description	语言	Sample
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1 和 DeepSeek-V3-0324。DeepSeek-R1 擅长通过分步训练过程处理推理任务，例如语言、科学推理和编码任务。DeepSeek-V3-0324 是一种专家混合（MoE）语言模型。此外，还有其他模型。

Model	类型	Capabilities
DeekSeek-V3-0324	chat-completion	- 输入：文本（131,072 个标记） - 输出：（131,072 个令牌） - 工具调用：无 - 响应格式：文本、JSON
DeepSeek-V3 (Legacy)	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（131,072 个标记） - 工具调用：无 - 响应格式：文本、JSON
DeepSeek-R1	聊天完成与推理内容	- 输入：文本（163,840 个标记） - 输出：文本（163,840 个标记） - 工具调用：无 - 响应格式：文本。

有关 DeepSeek-R1 的教程，请参阅教程：Azure AI 模型推理中的 DeepSeek-R1 推理模型入门。

在模型目录中查看此模型集合。

推理示例：DeepSeek

有关如何使用 DeepSeek 模型的更多示例，请参阅以下示例：

Description	语言	Sample
适用于 Python 的 Azure AI 推理包	Python	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 Java 的 Azure AI 推理包	Java	Link

Model	类型	Capabilities
Llama-4-Scout-17B-16E-Instruct	chat-completion	- 输入：文本和图像（128,000 个标记） - 输出：文本（8,192 个标记） - 工具调用：是 - 响应格式：文本
Llama 4-Maverick-17B-128E-Instruct-FP8	chat-completion	- 输入：文本和图像（128,000 个标记） - 输出：文本（8,192 个标记） - 工具调用：是 - 响应格式：文本
Llama-3.3-70B-Instruct	chat-completion	- 输入：文本（128,000 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Llama-3.2-90B-Vision-Instruct	聊天完成（包含图像）	- 输入：文本和图像（128,000 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Llama-3.2-11B-Vision-Instruct	聊天完成（包含图像）	- 输入：文本和图像（128,000 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Meta-Llama-3.1-8B-Instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Meta-Llama-3.1-405B-Instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Meta-Llama-3.1-70B-Instruct （已弃用）	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Meta-Llama-3-8B-Instruct （已弃用）	chat-completion	- 输入：文本（8,192 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本
Meta-Llama-3-70B-Instruct （已弃用）	chat-completion	- 输入：文本（8,192 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本

Microsoft

Microsoft模型包括各种模型组，例如 MAI 模型、Phi 模型、医疗保健 AI 模型等。若要查看所有可用的 Microsoft 模型，请查看 Foundry 门户中的 Microsoft 模型集合。

Model	类型	Capabilities
MAI-DS-R1	聊天完成与推理内容	- 输入：文本（163,840 个标记） - 输出：文本（163,840 个标记） - 工具调用：无 - 响应格式：文本。
Phi-4-reasoning	聊天完成与推理内容	- 输入：文本（32768 标记） - 输出：文本（32768 令牌） - 工具调用：无 - 响应格式：文本
Phi-4-mini-reasoning	聊天完成与推理内容	- 输入：文本（128,000 个标记） - 输出：文本（128,000 个标记） - 工具调用：无 - 响应格式：文本
Phi-4-multimodal-instruct	聊天完成（包含图像和音频内容）	- 输入：文本、图像和音频（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-4-mini-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-4	chat-completion	- 输入：文本（16,384 个标记） - 输出：文本（16,384 个标记） - 工具调用：无 - 响应格式：文本
Phi-3.5-mini-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3.5-MoE-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3.5-vision-instruct	聊天完成（包含图像）	- 输入：文本和图像（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-mini-128k-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-mini-4k-instruct	chat-completion	- 输入：文本（4,096 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-small-128k-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-small-8k-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-medium-128k-instruct	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Phi-3-medium-4k-instruct	chat-completion	- 输入：文本（4,096 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本

推理示例：Microsoft模型

有关如何使用Microsoft模型的更多示例，请参阅以下示例：

Description	语言	Sample
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

请参阅模型目录中的Microsoft模型集合。

Mistral人工智能

Mistral AI 提供以下两类模型：

高级模型：这些包括 Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3（25.05）和 Ministral 3B 模型，作为无服务器 API 提供，采用即用即付的令牌计费方式。
开放模型：其中包括 Mistral-small-2503， Codestral 和 Mistral Nemo（可用作基于即用即付令牌的无服务器 API），以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01（可用于下载和运行在自托管管理端点上）。

Model	类型	Capabilities
Codestral-2501	chat-completion	- 输入：文本（262,144 个标记） - 输出：文本（4,096 个标记） - 工具调用：无 - 响应格式：文本
Ministral-3B	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-Nemo	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-Large-2411	chat-completion	- 输入：文本（128,000 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-large-2407 (deprecated)	chat-completion	- 输入：文本（131,072 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-large (deprecated)	chat-completion	- 输入：文本（32,768 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-medium-2505	chat-completion	- 输入：文本（128,000 个标记），图像 - 输出：文本（128,000 个标记） - 工具调用：无 - 响应格式：文本、JSON
Mistral-OCR-2503	图像到文本	- 输入：图像或 PDF 页面（1,000 页，最大 50MB PDF 文件） - 输出：文本 - 工具调用：无 - 响应格式：文本、JSON、Markdown
Mistral-small-2503	聊天完成（包含图像）	- 输入：文本和图像（131,072 个标记），图像型标记为 16px x 16px 原始图像块 - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON
Mistral-small	chat-completion	- 输入：文本（32,768 个标记） - 输出：文本（4,096 个标记） - 工具调用：是 - 响应格式：文本、JSON

在模型目录中查看此模型集合。

推理示例:“Mistral”

有关如何使用 Mistral 模型的更多示例，请参阅以下示例和教程：

Description	语言	Sample
CURL 请求	Bash	Link
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
Python Web 请求	Python	Link
OpenAI SDK（实验性）	Python	Mistral - OpenAI SDK 示例
LangChain	Python	Mistral - LangChain 示例
Mistral人工智能	Python	Mistral - Mistral AI 示例
LiteLLM	Python	Mistral - LiteLLM 示例

Nixtla

Nixtla 的 TimeGEN-1 是一个用于时序数据的生成预训练模型，能够进行预测和异常检测。 TimeGEN-1 可以在不训练的情况下为新的时序生成准确的预测，仅使用历史值和外生协变量作为输入。

若要执行推理，TimeGEN-1 要求使用 Nixtla 的自定义推理 API。

Model	类型	Capabilities	推理 API
TimeGEN-1	Forecasting	- 输入：时序数据作为 JSON 或数据帧（支持多变量输入） - 输出：时序数据作为 JSON - 工具调用：无 - 响应格式： JSON	预测客户端与 Nixtla 的 API 交互

估算所需的标记数

在创建 TimeGEN-1 部署之前，最好是估算你要使用的付费标记数。一个标记对应于输入数据集或输出数据集中的一个数据点。

假设你有以下输入时序数据集：

Unique_id	Timestamp	目标变量	外生变量 1	外生变量 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

若要确定标记数，请将行数（在此示例中为 2）乘以用于预测的列数 - 不包括 unique_id 和 timestamp 列（在此示例中为 3），总共得出 6 个标记。

给定如下输出数据集：

Unique_id	Timestamp	预测的目标变量
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

你还可以通过统计数据预测后返回的数据点数来确定标记数。在此示例中，标记数为 2。

根据标记估算定价

有四个定价计量器用于确定支付价格。这些计量器如下：

定价仪表	Description
paygo-inference-input-tokens	当 finetune_steps = 0 时，与用作推理输入的标记关联的成本
paygo-inference-output-tokens	当 finetune_steps = 0 时，与用作推理输出的标记关联的成本
paygo-finetuned-model-inference-input-tokens	当 finetune_steps 0 时，与用作推理输入的标记关联的成本>
paygo-finetuned-model-inference-output-tokens	当 finetune_steps > 0 时，与用作推理输出的标记关联的成本

请参阅模型目录中的 Nixtla 模型集合。

NTT DATA

tsuzumi 是自动回归语言优化转换器。优化版本使用监督式微调(SFT)。 tsuzumi 可以高效地处理日语和英语。

Model	类型	Capabilities
tsuzumi-7b	chat-completion	- 输入：文本（8,192 个标记） - 输出：文本（8,192 个标记） - 工具调用：无 - 响应格式：文本

稳定性 AI

Stability AI 的图像生成模型集合包括 Stable Image Core、Stable Image Ultra 和 Stable Diffusion 3.5 Large。 Stable Diffusion 3.5 Large 允许图像和文本输入。

Model	类型	Capabilities
稳定扩散 3.5 大型版	图像生成	- 输入：文本和图像（1000 个令牌和 1 个图像） - 输出： 1 个图像 - 工具调用：无 - 响应格式：图像（PNG 和 JPG）
稳定映像核心	图像生成	- 输入：文本（1000 个标记） - 输出： 1 个图像 - 工具调用：无 - 响应格式：图像（PNG 和 JPG）
超稳图像	图像生成	- 输入：文本（1000 个标记） - 输出： 1 个图像 - 工具调用：无 - 响应格式：图像（PNG 和 JPG）

推理示例: 稳定性 AI

标准部署中的 Stability AI 模型在路由 /image/generations 上实现了 Azure AI 模型推理 API。有关如何使用稳定性 AI 模型的示例，请参阅以下示例：

将 OpenAI SDK 与 Stability AI 模型配合使用，用于进行文本到图像的请求
将 Requests 库与 Stability AI 模型结合使用以处理文本生成图像请求。
使用 Requests 库与 Stable Diffusion 3.5 Large 进行以图生图请求
完全编码的图像生成响应示例

反馈

此页面是否有帮助？

Last updated on 2025-11-18

通过

Foundry 模型目录精选模型

AI21 实验室

Azure OpenAI

Cohere

Cohere 命令和嵌入

推理示例: Cohere 命令和嵌入

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

Cohere 重新排序

Cohere Rerank 模型的定价

Core42

推理示例：Core42

DeepSeek

推理示例：DeepSeek

Meta

推理示例: Meta Llama

Microsoft

推理示例：Microsoft模型

Mistral人工智能

推理示例:“Mistral”

Nixtla

估算所需的标记数

根据标记估算定价

NTT DATA

稳定性 AI

推理示例: 稳定性 AI

相关内容

反馈

其他资源