你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry 模型目录精选模型

Foundry 模型目录提供来自各种提供商的大量模型。 您有多种选项可以从模型目录中部署模型。 本文列出了模型目录中的特色模型,这些模型可以通过标准部署在Microsoft的服务器上部署和托管。 对于其中一些模型,还可以在基础结构上托管这些模型,以便通过托管计算进行部署。 请参阅 支持的部署选项 的可用模型,以在目录中查找可通过托管计算或标准部署进行部署的模型。

要对模型执行推断,某些模型(如 Nixtla 的 TimeGEN-1Cohere rerank)需要使用模型提供者的自定义 API。 其他支持使用 Azure AI 模型推理进行推理。 可以通过查看模型 目录中的模型卡来查找有关各个模型的更多详细信息。

显示 Foundry 模型目录部分和可用模型的动画。

AI21 实验室

Jamba 家族模型是 AI21 基于 Mamba 的商用级大型语言模型 (LLM),它使用 AI21 自己的混合 Mamba-Transformer 架构。 它是 AI21 混合结构化状态空间模型 (SSM) 转换器 Jamba 模型经过了指令优化的版本。 Jamba 系列模型专用于可靠的商业用途,可提供出色的质量和性能。

Model 类型 Capabilities
AI21-Jamba-1.5-Mini chat-completion - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
AI21-Jamba-1.5-Large chat-completion - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出

模型目录中查看此模型集合

Azure OpenAI

Microsoft Foundry Models 中的 Azure OpenAI 提供了一组具有不同功能和价位的不同模型。 这些模型包括:

  • 为处理推理任务和问题解决任务设计的最先进的模型,具有更好的针对性和功能
  • 可以理解和生成自然语言和代码的模型
  • 可以将语音听录和翻译为文本的模型
Model 类型 Capabilities
o3-mini chat-completion - 输入:文本和图像(200,000 个标记)
- 输出:文本(100,000 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1 聊天完成(包含图像) - 输入:文本和图像(200,000 个标记)
- 输出:文本(100,000 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1-preview chat-completion - 输入:文本(128,000 个标记)
- 输出: 文本(32,768 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
o1-mini chat-completion - 输入:文本(128,000 个标记)
- 输出: 文本(65,536 个标记)
- 工具调用:
- 响应格式:文本
gpt-4o-realtime-preview 实时 - 输入:控制、文本和音频(131,072 个标记)
- 输出:文本和音频(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON
gpt-4o 聊天完成(包含图像和音频内容) - 输入:文本、图像和音频(131,072 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
gpt-4o-mini 聊天完成(包含图像和音频内容) - 输入:文本、图像和音频(131,072 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本、JSON、结构化输出
text-embedding-3-large embeddings - 输入:文本(8,191 个标记)
- 输出: 矢量 (3,072 维)
text-embedding-3-small embeddings - 输入:文本(8,191 个标记)
- 输出: 矢量 (1,536 dim.)

模型目录中查看此模型集合

Cohere

Cohere 系列模型包括针对各种用途优化的不同模型,包括重新排序、聊天生成和嵌入模型。

Cohere 命令和嵌入

下表列出了可以通过 Azure AI 模型推理推断的 Cohere 模型。

Model 类型 Capabilities
Cohere-command-A chat-completion - 输入: 文本(256,000 个标记)
- 输出: 文本(8,000 个标记)
- 工具调用:
- 响应格式:文本
Cohere-command-r-plus-08-2024 chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r-08-2024 chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r-plus
(deprecated)
chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-command-r
(deprecated)
chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Cohere-embed-4 embeddings
image-embeddings
- 输入: 图像、文本
- 输出: 图像、文本(128,000 个令牌)
- 工具调用:
- 响应格式: 图像、文本
Cohere-embed-v3-english embeddings
image-embeddings
- 输入:文本(512 个标记)
- 输出: 矢量 (1,024维)
Cohere-embed-v3-multilingual embeddings
image-embeddings
- 输入:文本(512 个标记)
- 输出: 矢量 (1,024维)

推理示例: Cohere 命令和嵌入

有关如何使用 Cohere 模型的更多示例,请参阅以下示例:

Description 语言 Sample
Web 请求 Bash Command-RCommand-R+
cohere-embed.ipynb
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
OpenAI SDK(实验性) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

Description Packages Sample
使用 Cohere 嵌入项创建本地 Facebook AI 相似性搜索 (FAISS) 矢量索引 - Langchain langchainlangchain_cohere cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 根据本地 FAISS 矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Cohere SDK cohereazure_search_documents cohere-aisearch-rag.ipynb
使用 LangChain 调用 Command R+ 工具/函数 coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere 重新排序

下表列出了 Cohere 重排序模型。 若要使用这些重新调整模型执行推理,需要使用表中列出的 Cohere 自定义重新调整 API。

Model 类型 推理 API
Cohere-rerank-v3.5 rerank
文本分类
Cohere 的 v2/rerank API
Cohere-rerank-v3-english
(deprecated)
rerank
文本分类
Cohere 的 v2/rerank API
Cohere 的 v1/rerank API
Cohere-rerank-v3-multilingual
(deprecated)
rerank
文本分类
Cohere 的 v2/rerank API
Cohere 的 v1/rerank API

Cohere Rerank 模型的定价

查询(不要与用户的查询混淆)是一种定价计量,是指与用作 Cohere Rerank 模型的推理输入的标记关联的成本。 Cohere 将单个搜索单元计为一个查询,最多可为 100 个文档排序。 当文档长度加上搜索查询的长度超过 500 个标记(对于 Cohere-rerank-v3.5)或超过 4096 个标记(对于 Cohere-rerank-v3-English 和 Cohere-rerank-v3-multilingual)时,文档会被拆分为多个部分,每个部分计为一个单独的文档。

请参阅 模型目录中的 Cohere 模型集合

Core42

Core42 包含阿拉伯语和英语的自回归双语 LLM,在阿拉伯语中具有最先进的功能。

Model 类型 Capabilities
jais-30b-chat chat-completion - 输入:文本(8,192 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON

模型目录中查看此模型集合

推理示例:Core42

有关如何使用 Jais 模型的更多示例,请参阅以下示例:

Description 语言 Sample
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1 和 DeepSeek-V3-0324。DeepSeek-R1 擅长通过分步训练过程处理推理任务,例如语言、科学推理和编码任务。DeepSeek-V3-0324 是一种专家混合(MoE)语言模型。此外,还有其他模型。

Model 类型 Capabilities
DeekSeek-V3-0324 chat-completion - 输入:文本(131,072 个标记)
- 输出: (131,072 个令牌)
- 工具调用:
- 响应格式:文本、JSON
DeepSeek-V3
(Legacy)
chat-completion - 输入:文本(131,072 个标记)
- 输出: 文本(131,072 个标记)
- 工具调用:
- 响应格式:文本、JSON
DeepSeek-R1 聊天完成与推理内容 - 输入: 文本(163,840 个标记)
- 输出: 文本(163,840 个标记)
- 工具调用:
- 响应格式:文本。

有关 DeepSeek-R1 的教程,请参阅 教程:Azure AI 模型推理中的 DeepSeek-R1 推理模型入门

模型目录中查看此模型集合

推理示例:DeepSeek

有关如何使用 DeepSeek 模型的更多示例,请参阅以下示例:

Description 语言 Sample
适用于 Python 的 Azure AI 推理包 Python Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 Java 的 Azure AI 推理包 Java Link

Meta

Meta Llama 模型和工具是预训练和微调的生成式 AI 文本和图像推理模型的集合。 元模型的范围经过调整以包括:

  • 小型语言模型 (SLM),如 1B 和 3B Base 模型,以及用于设备和边缘推理的 Instruct 模型
  • 中等大型语言模型 (LLM),如 7B、8B 和 70B Base 模型和 Instruct 模型
  • 高性能模型(如 Meta Llama 3.1-405B Instruct),用于合成数据生成和蒸馏用例。
  • 高性能的本地化多模态模型 Llama 4 Scout 和 Llama 4 Maverick,利用专家混合体系结构,在文本和图像理解方面提供行业领先的性能。
Model 类型 Capabilities
Llama-4-Scout-17B-16E-Instruct chat-completion - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama 4-Maverick-17B-128E-Instruct-FP8 chat-completion - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.3-70B-Instruct chat-completion - 输入:文本(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.2-90B-Vision-Instruct 聊天完成(包含图像) - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Llama-3.2-11B-Vision-Instruct 聊天完成(包含图像) - 输入:文本和图像(128,000 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-8B-Instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-405B-Instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3.1-70B-Instruct (已弃用) chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3-8B-Instruct (已弃用) chat-completion - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本
Meta-Llama-3-70B-Instruct (已弃用) chat-completion - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本

模型目录中查看此模型集合

推理示例: Meta Llama

有关如何使用 Meta Llama 模型的更多示例,请参阅以下示例:

Description 语言 Sample
CURL 请求 Bash Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
Python Web 请求 Python Link
OpenAI SDK(实验性) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft模型包括各种模型组,例如 MAI 模型、Phi 模型、医疗保健 AI 模型等。 若要查看所有可用的 Microsoft 模型,请查看 Foundry 门户中的 Microsoft 模型集合

Model 类型 Capabilities
MAI-DS-R1 聊天完成与推理内容 - 输入: 文本(163,840 个标记)
- 输出: 文本(163,840 个标记)
- 工具调用:
- 响应格式:文本。
Phi-4-reasoning 聊天完成与推理内容 - 输入: 文本(32768 标记)
- 输出: 文本(32768 令牌)
- 工具调用:
- 响应格式:文本
Phi-4-mini-reasoning 聊天完成与推理内容 - 输入:文本(128,000 个标记)
- 输出: 文本(128,000 个标记)
- 工具调用:
- 响应格式:文本
Phi-4-multimodal-instruct 聊天完成(包含图像和音频内容) - 输入: 文本、图像和音频(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-4-mini-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-4 chat-completion - 输入:文本(16,384 个标记)
- 输出:文本(16,384 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-mini-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-MoE-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3.5-vision-instruct 聊天完成(包含图像) - 输入:文本和图像(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-mini-128k-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-mini-4k-instruct chat-completion - 输入:文本(4,096 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-small-128k-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-small-8k-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-medium-128k-instruct chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Phi-3-medium-4k-instruct chat-completion - 输入:文本(4,096 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本

推理示例:Microsoft模型

有关如何使用Microsoft模型的更多示例,请参阅以下示例:

Description 语言 Sample
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
LangChain Python Link
Llama-Index Python Link

请参阅 模型目录中的Microsoft模型集合

Mistral人工智能

Mistral AI 提供以下两类模型:

  • 高级模型:这些包括 Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3(25.05)和 Ministral 3B 模型,作为无服务器 API 提供,采用即用即付的令牌计费方式。
  • 开放模型:其中包括 Mistral-small-2503, Codestral 和 Mistral Nemo(可用作基于即用即付令牌的无服务器 API),以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01(可用于下载和运行在自托管管理端点上)。
Model 类型 Capabilities
Codestral-2501 chat-completion - 输入:文本(262,144 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本
Ministral-3B chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-Nemo chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-Large-2411 chat-completion - 输入:文本(128,000 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-large-2407
(deprecated)
chat-completion - 输入:文本(131,072 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-large
(deprecated)
chat-completion - 输入:文本(32,768 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-medium-2505 chat-completion - 输入: 文本(128,000 个标记),图像
- 输出: 文本(128,000 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-OCR-2503 图像到文本 - 输入: 图像或 PDF 页面(1,000 页,最大 50MB PDF 文件)
- 输出: 文本
- 工具调用:
- 响应格式: 文本、JSON、Markdown
Mistral-small-2503 聊天完成(包含图像) - 输入: 文本和图像(131,072 个标记),
图像型标记为 16px x 16px
原始图像块
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON
Mistral-small chat-completion - 输入:文本(32,768 个标记)
- 输出:文本(4,096 个标记)
- 工具调用:
- 响应格式:文本、JSON

模型目录中查看此模型集合

推理示例:“Mistral”

有关如何使用 Mistral 模型的更多示例,请参阅以下示例和教程:

Description 语言 Sample
CURL 请求 Bash Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
Python Web 请求 Python Link
OpenAI SDK(实验性) Python Mistral - OpenAI SDK 示例
LangChain Python Mistral - LangChain 示例
Mistral人工智能 Python Mistral - Mistral AI 示例
LiteLLM Python Mistral - LiteLLM 示例

Nixtla

Nixtla 的 TimeGEN-1 是一个用于时序数据的生成预训练模型,能够进行预测和异常检测。 TimeGEN-1 可以在不训练的情况下为新的时序生成准确的预测,仅使用历史值和外生协变量作为输入。

若要执行推理,TimeGEN-1 要求使用 Nixtla 的自定义推理 API。

Model 类型 Capabilities 推理 API
TimeGEN-1 Forecasting - 输入: 时序数据作为 JSON 或数据帧(支持多变量输入)
- 输出: 时序数据作为 JSON
- 工具调用:
- 响应格式: JSON
预测客户端与 Nixtla 的 API 交互

估算所需的标记数

在创建 TimeGEN-1 部署之前,最好是估算你要使用的付费标记数。 一个标记对应于输入数据集或输出数据集中的一个数据点。

假设你有以下输入时序数据集:

Unique_id Timestamp 目标变量 外生变量 1 外生变量 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

若要确定标记数,请将行数(在此示例中为 2)乘以用于预测的列数 - 不包括 unique_id 和 timestamp 列(在此示例中为 3),总共得出 6 个标记。

给定如下输出数据集:

Unique_id Timestamp 预测的目标变量
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

你还可以通过统计数据预测后返回的数据点数来确定标记数。 在此示例中,标记数为 2。

根据标记估算定价

有四个定价计量器用于确定支付价格。 这些计量器如下:

定价仪表 Description
paygo-inference-input-tokens 当 finetune_steps = 0 时,与用作推理输入的标记关联的成本
paygo-inference-output-tokens 当 finetune_steps = 0 时,与用作推理输出的标记关联的成本
paygo-finetuned-model-inference-input-tokens 当 finetune_steps 0 时,与用作推理输入的标记关联的成本>
paygo-finetuned-model-inference-output-tokens 当 finetune_steps > 0 时,与用作推理输出的标记关联的成本

请参阅 模型目录中的 Nixtla 模型集合

NTT DATA

tsuzumi 是自动回归语言优化转换器。 优化版本使用监督式微调(SFT)。 tsuzumi 可以高效地处理日语和英语。

Model 类型 Capabilities
tsuzumi-7b chat-completion - 输入:文本(8,192 个标记)
- 输出:文本(8,192 个标记)
- 工具调用:
- 响应格式:文本

稳定性 AI

Stability AI 的图像生成模型集合包括 Stable Image Core、Stable Image Ultra 和 Stable Diffusion 3.5 Large。 Stable Diffusion 3.5 Large 允许图像和文本输入。

Model 类型 Capabilities
稳定扩散 3.5 大型版 图像生成 - 输入: 文本和图像(1000 个令牌和 1 个图像)
- 输出: 1 个图像
- 工具调用:
- 响应格式:图像(PNG 和 JPG)
稳定映像核心 图像生成 - 输入: 文本(1000 个标记)
- 输出: 1 个图像
- 工具调用:
- 响应格式: 图像(PNG 和 JPG)
超稳图像 图像生成 - 输入: 文本(1000 个标记)
- 输出: 1 个图像
- 工具调用:
- 响应格式: 图像(PNG 和 JPG)

推理示例: 稳定性 AI

标准部署中的 Stability AI 模型在路由 /image/generations 上实现了 Azure AI 模型推理 API。 有关如何使用稳定性 AI 模型的示例,请参阅以下示例: