模型單位是輸送量單位,可決定端點每分鐘可處理多少工作。 當您建立新的 佈建輸送量端點時,您可以指定要為每個提供的模型佈建的模型單位數量。
處理端點每個要求所需的工作量取決於輸入和產生的輸出大小。 隨著輸入和輸出令牌的數目增加,處理要求所需的工作量也會增加。 產生輸出令牌比處理輸入令牌更需要大量資源。 隨著輸入或輸出權杖計數的增加,每個請求所需的工作都會以非線性方式成長,這表示對於指定數量的模型單位,您的端點可以處理下列其中一項:
- 一次同時處理多個小型要求。
- 容量耗盡前,同時處理的長上下文請求較少。
例如,對於具有 3500 個輸入標記和 300 個輸出標記的中型工作負載,您可以估計特定模型單位數量的每秒標記處理量:
| 型號 | 模型單位 | 每秒估計的令牌數 |
|---|---|---|
| 拉瑪 4 小牛 | 50 | 3250 |
使用模型單位的模型
下列模型會使用 模型單元 來佈建推論容量:
- OpenAI GPT OSS 120B
- OpenAI GPT OSS 20B
- 谷歌 Gemma 3 12B
- Meta Llama 4 小牛 (預覽)
備註
提供下列舊版模型系列中模型的模型服務端點會根據每秒令牌頻段來佈建推論容量:
- 元駱駝 3.3
- 元駱駝 3.2 3B
- 元駱駝 3.2 1B
- 元駱駝 3.1
- GTE v1.5 (英文)
- BGE v1.5 (英文)
- DeepSeek R1 (無法在 Unity 目錄中取得)
- 元駱駝 3
- 元駱駝 2
- DBRX
- Mistral
- Mixtral
- 郵電部