模型单位是一个吞吐量单位,用于确定终结点每分钟可以处理多少工作。 创建新的 预配吞吐量终结点时,可以指定要为每个模型提供服务的模型单位数。
处理对终结点的每个请求所需的工作量取决于输入和生成的输出的大小。 随着输入和输出令牌的数量增加,处理请求所需的工作量也会增加。 与处理输入令牌相比,生成输出令牌更耗费资源。 随着输入或输出令牌计数的增加,每个请求所需的工作以非线性方式增长,这意味着对于给定数量的模型单位,终结点可以处理以下任一作:
- 一次处理多个小请求。
- 在达到容量上限之前,要减少长上下文请求的数量。
例如,对于具有 3500 个输入令牌和 300 个输出令牌的中型工作负荷,可以估计给定数量的模型单位的令牌每秒吞吐量:
| 型号 | 模型单位 | 每秒令牌估计数 |
|---|---|---|
| Llama 4 小牛 | 50 | 3250 |
使用模型单位的模型
以下模型使用 模型单元 来预配推理容量:
- OpenAI GPT OSS 120B
- OpenAI GPT OSS 20B
- Google Gemma 3 12B
- Meta Llama 4 Maverick(预览版)
注释
为以下旧模型系列中的模型提供服务的终结点的模型基于 每秒带的令牌预配推理容量:
- Meta Llama 3.3
- 元 Llama 3.2 3B
- 元 Llama 3.2 1B
- Meta Llama 3.1
- GTE v1.5 (英语)
- BGE v1.5 (英语)
- DeepSeek R1(在 Unity Catalog 中不可用)
- Meta Llama 3
- Meta Llama 2
- DBRX
- Mistral
- Mixtral
- MPT