本頁說明 Databricks 基礎模型 API 工作負載的限制和配額。
Databricks 基礎模型 API 會強制執行速率限制,以確保所有使用者的可靠效能和公平的資源配置。 這些限制會根據 工作區平台層、基礎模型類型以及部署基礎模型的方式而有所不同。
按權杖付費端點速率限制
按權杖付費端點受權杖型和查詢型速率限制所控管。 權杖型速率限制可控制每分鐘可處理的權杖數目上限,並針對輸入和輸出權杖分別強制執行。
- 每分鐘輸入權杖數 (ITPM):可在 60 秒時段內處理的輸入權杖數目上限 (來自您的提示)。 ITPM 速率限制可控制端點的輸入權杖輸送量。
- 每分鐘輸出權杖數 (OTPM) :可在 60 秒視窗內產生的輸出權杖數目上限 (來自模型的回應)。 OTPM 速率限制可控制端點的輸出權杖輸送量。
- 每小時查詢數:在 60 分鐘時段內可處理的查詢或請求數目上限。 對於具有持續使用模式的生產應用程式,Databricks 建議佈建輸送量端點,以提供保證的容量。
如何追蹤和執行限制
最嚴格的速率限制 (ITPM、OTPM、QPH) 會在任何給定時間套用。 例如,即使您尚未達到 ITPM 限制,如果您超過 QPH 或 OTPM 限制,您可能仍會受到速率限制。 當達到 ITPM 或 OTPM 限制時,後續要求會收到 429 錯誤,指出收到太多要求。 此訊息會持續存在,直到速率限制視窗重設為止。
Databricks 會使用下列功能來追蹤和強制執行每分鐘權杖 (TPM) 速率限制:
| 特徵 / 功能 | 詳細資訊 |
|---|---|
| 代幣會計和准入前檢查 |
|
| 突發容量和平滑 |
|
以下是錄取前檢查和信用返還行為如何運作的範例。
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
依型號的速率限制
下表摘要說明 企業層工作區的按權杖付費基礎模型 API 端點的 ITPM、OTPM 和 QPH 速率限制:
備註
從 2026 年 2 月 15 日開始,Meta-Llama-3.1-405B-Instruct 將停用。 請參閱 淘汰模型 , 以取得建議的取代模型,以及如何在淘汰期間移轉的指引。
| 大型語言模型 | ITPM 限制 | OTPM 限制 | QPH 限制 | 註釋 |
|---|---|---|---|---|
| Qwen3-Next 80B A3B Instruct(測試版) | 200,000 | 10,000 | 通用法學碩士 | |
| GPT OSS 120B | 200,000 | 10,000 | 通用法學碩士 | |
| GPT OSS 20B | 200,000 | 10,000 | 較小的 GPT 變體 | |
| 傑瑪 3 12B | 200,000 | 10,000 | 7,200 | 谷歌的 Gemma 模型 |
| 拉瑪 4 小牛 | 200,000 | 10,000 | 2,400 | 最新的 Llama 版本 |
| Llama 3.3 70B 指示 | 200,000 | 10,000 | 2,400 | 中型駱駝模型 |
| 駱駝 3.1 8B 指導 | 200,000 | 10,000 | 7,200 | 輕量級 Llama 模型 |
| Llama 3.1 405B 指示 | 5,000 | 500 | 1,200 |
|
| 人類克勞德模型 | ITPM 限制 | OTPM 限制 | 註釋 |
|---|---|---|---|
| Claude 3.7 十四行詩 | 50,000 | 5,000 | 平衡克勞德模型 |
| 克勞德·索內特 4 | 50,000 | 5,000 | |
| 克勞德作品 4.1 | 50,000 | 5,000 | |
| 克勞德作品4.5 | 200,000 | 20,000 | 最新 Opus 版本 |
| 克勞德十四行詩 4.5 | 50,000 | 5,000 | 最新十四行詩版本 |
| 克勞德俳句 4.5 | 50,000 | 5,000 | 最新俳句版本 |
| 內嵌模型 | ITPM 限制 | OTPM 限制 | QPH 限制 | 註釋 |
|---|---|---|---|---|
| GTE 大號 (英文) | N/A | N/A | 540,000 | 文字內嵌模型 - 不產生正規化內嵌 |
| BGE 大型 (en) | N/A | N/A | 2,160,000 | 文字內嵌模型 |
管理 TPM 速率限制最佳做法
步驟 1. 監控權杖使用情況
在應用程式中分別追蹤輸入和輸出權杖計數:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
步驟 2. 實作重試邏輯
當您遇到速率限制錯誤時,新增指數輪詢:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
步驟 3. 最佳化權杖使用
- 最小化提示長度: 使用簡潔、結構良好的提示
-
控制輸出長度:使用
max_tokens參數限制回應大小 - 明確設定 Claude Sonnet 4 的max_tokens:使用 Claude Sonnet 4 時始終指定
max_tokens,以避免預設的 1,000 個令牌限制 - 高效批次: 盡可能將相關請求分組,同時保持在限制範圍內
步驟 4. 考慮模型選擇
- 用於大容量任務的較小模型: 使用 Llama 3.1 8B 等模型進行需要更高吞吐量的任務
- 用於複雜任務的大型模型:保留 Llama 3.1 405B 用於需要最大能力的任務
監視與疑難排解
監控您的權杖使用模式以優化效能:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
處理速率限制錯誤
當您超過速率限制時,API 會傳回 429 Too Many Requests 錯誤:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
錯誤回應包括:
-
limit_type:超過哪個特定限制(ITPM、OTPM、QPS 或 QPH) -
limit:配置的限制值 -
current:您目前的使用情況 -
retry_after:建議等待時間(以秒為單位)
常見問題和解決方案
| 問題 | Solution |
|---|---|
| 429 錯誤頻發 | 實作指數退避、降低請求速率,並要求更高的速率限制 |
| 已達到 ITPM 限制 | 優化提示長度 |
| 已達到 OTPM 限制 | 用 max_tokens 來限制回應長度 |
| 已達到 QPH 限制 | 隨著時間的推移更均勻地分配請求 |
佈建的輸送量限制
對於需要較高限制的生產工作負載,佈建輸送量端點提供:
- 無 TPM 限制:以佈建資源為基礎的處理容量
- 較高的速率限制:每個工作區每秒最多 200 個查詢
- 可預測的效能:專用資源確保一致的延遲
輸出代幣限制
備註
自 2026 年 5 月 15 日起,Meta-Llama-3.1-405B-Instruct 將停用。 請參閱 淘汰模型 , 以取得建議的取代模型,以及如何在淘汰期間移轉的指引。
下表摘要說明每個支援模型的輸出權杖限制:
| 型號 | 輸出代幣上限 |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| 傑瑪 3 12B | 8,192 |
| 拉瑪 4 小牛 | 8,192 |
| 駱駝 3.1 405B | 4,096 |
| 駱駝 3.1 70B | 8,192 |
| 駱駝 3.1 8B | 8,192 |
其他限制
以下是預設吞吐量工作負載的限制:
- 若要從
system.aiUnity 目錄中部署 Meta Llama 模型,您必須選擇適用的 Instruct 版本。 不支援從 Unity 目錄部署 Meta Llama 模型的基底版本。 請參閱 部署佈建的輸送量端點。 - 對於使用 Llama 4 Maverick 的佈建輸送量工作負載:
- 布建輸送量工作負載上此模型的支援處於 公開預覽狀態。
- 不支援自動調整。
- 不支援度量面板。
- 為 Llama 4 Maverick 提供服務的端點不支援流量分割。 您無法在為 Llama 4 Maverick 提供服務的端點上提供多個模型。
區域可用性和資料處理
如需 Databricks 裝載的基礎模型區域可用性,請參閱 基礎模型概觀。
如需資料處理和落地詳細資料,請參閱 資料處理和落地。