共用方式為


基礎模型 API 限制和配額

本頁說明 Databricks 基礎模型 API 工作負載的限制和配額。

Databricks 基礎模型 API 會強制執行速率限制,以確保所有使用者的可靠效能和公平的資源配置。 這些限制會根據 工作區平台層、基礎模型類型以及部署基礎模型的方式而有所不同。

按權杖付費端點速率限制

按權杖付費端點受權杖型和查詢型速率限制所控管。 權杖型速率限制可控制每分鐘可處理的權杖數目上限,並針對輸入和輸出權杖分別強制執行。

  • 每分鐘輸入權杖數 (ITPM):可在 60 秒時段內處理的輸入權杖數目上限 (來自您的提示)。 ITPM 速率限制可控制端點的輸入權杖輸送量。
  • 每分鐘輸出權杖數 (OTPM) :可在 60 秒視窗內產生的輸出權杖數目上限 (來自模型的回應)。 OTPM 速率限制可控制端點的輸出權杖輸送量。
  • 每小時查詢數:在 60 分鐘時段內可處理的查詢或請求數目上限。 對於具有持續使用模式的生產應用程式,Databricks 建議佈建輸送量端點,以提供保證的容量。

如何追蹤和執行限制

最嚴格的速率限制 (ITPM、OTPM、QPH) 會在任何給定時間套用。 例如,即使您尚未達到 ITPM 限制,如果您超過 QPH 或 OTPM 限制,您可能仍會受到速率限制。 當達到 ITPM 或 OTPM 限制時,後續要求會收到 429 錯誤,指出收到太多要求。 此訊息會持續存在,直到速率限制視窗重設為止。

Databricks 會使用下列功能來追蹤和強制執行每分鐘權杖 (TPM) 速率限制:

特徵 / 功能 詳細資訊
代幣會計和准入前檢查
  • 輸入權杖計數:輸入權杖是在請求時從您的實際提示中計算的。
  • 輸出權杖估計:如果您在要求中提供 max_tokens ,Databricks 會使用此值來估計和保留輸出權杖容量, 允許要求進行處理。
  • 入會前驗證:Databricks 會在處理開始之前檢查您的要求是否超過 ITPM 或 OTPM 限制。 如果會導致您超過 OTPM 限制,Databricks max_tokens 會立即拒絕要求,並顯示 429 錯誤。
  • 實際與估計輸出:產生回應後,會計算實際輸出權杖。 重要的是,如果實際令牌使用量少於保留 max_tokens的量,Databricks 會將差異記入您的速率限制限額,讓這些令牌立即可用於其他要求。
  • 未指定max_tokens:如果您未指定 max_tokens,Databricks 會使用預設保留,並在產生之後協調實際的權杖計數。 便條: Claude Sonnet 4 在未設定時 max_tokens 特別預設為 1,000 個輸出標記,並在達到時傳回完成原因「length」。 這不是模型的環境定義長度上限。 Claude 3.7 Sonnet 沒有這樣的默認。
突發容量和平滑
  • 突發緩衝區:速率限制器包括一個小緩衝區,以適應高於標稱速率的短時間突發流量。
  • 滑動視窗:使用滑動視窗演算法追蹤權杖消耗,該演算法提供比每分鐘硬界限更平滑的速率限制。
  • 權杖貯體演算法:Databricks 使用權杖貯體實作,允許一些高載容量,同時維持一段時間的平均速率限制。

以下是錄取前檢查和信用返還行為如何運作的範例。

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

依型號的速率限制

下表摘要說明 企業層工作區的按權杖付費基礎模型 API 端點的 ITPM、OTPM 和 QPH 速率限制:

備註

從 2026 年 2 月 15 日開始,Meta-Llama-3.1-405B-Instruct 將停用。 請參閱 淘汰模型 , 以取得建議的取代模型,以及如何在淘汰期間移轉的指引。

大型語言模型 ITPM 限制 OTPM 限制 QPH 限制 註釋
Qwen3-Next 80B A3B Instruct(測試版) 200,000 10,000 通用法學碩士
GPT OSS 120B 200,000 10,000 通用法學碩士
GPT OSS 20B 200,000 10,000 較小的 GPT 變體
傑瑪 3 12B 200,000 10,000 7,200 谷歌的 Gemma 模型
拉瑪 4 小牛 200,000 10,000 2,400 最新的 Llama 版本
Llama 3.3 70B 指示 200,000 10,000 2,400 中型駱駝模型
駱駝 3.1 8B 指導 200,000 10,000 7,200 輕量級 Llama 模型
Llama 3.1 405B 指示 5,000 500 1,200
  • 最大的駱駝模型 - 由於尺寸而減少限制
人類克勞德模型 ITPM 限制 OTPM 限制 註釋
Claude 3.7 十四行詩 50,000 5,000 平衡克勞德模型
克勞德·索內特 4 50,000 5,000
克勞德作品 4.1 50,000 5,000
克勞德作品4.5 200,000 20,000 最新 Opus 版本
克勞德十四行詩 4.5 50,000 5,000 最新十四行詩版本
克勞德俳句 4.5 50,000 5,000 最新俳句版本
內嵌模型 ITPM 限制 OTPM 限制 QPH 限制 註釋
GTE 大號 (英文) N/A N/A 540,000 文字內嵌模型 - 不產生正規化內嵌
BGE 大型 (en) N/A N/A 2,160,000 文字內嵌模型

管理 TPM 速率限制最佳做法

步驟 1. 監控權杖使用情況

在應用程式中分別追蹤輸入和輸出權杖計數:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

步驟 2. 實作重試邏輯

當您遇到速率限制錯誤時,新增指數輪詢:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

步驟 3. 最佳化權杖使用

  • 最小化提示長度: 使用簡潔、結構良好的提示
  • 控制輸出長度:使用 max_tokens 參數限制回應大小
  • 明確設定 Claude Sonnet 4 的max_tokens:使用 Claude Sonnet 4 時始終指定max_tokens,以避免預設的 1,000 個令牌限制
  • 高效批次: 盡可能將相關請求分組,同時保持在限制範圍內

步驟 4. 考慮模型選擇

  • 用於大容量任務的較小模型: 使用 Llama 3.1 8B 等模型進行需要更高吞吐量的任務
  • 用於複雜任務的大型模型:保留 Llama 3.1 405B 用於需要最大能力的任務

監視與疑難排解

監控您的權杖使用模式以優化效能:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

處理速率限制錯誤

當您超過速率限制時,API 會傳回 429 Too Many Requests 錯誤:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

錯誤回應包括:

  • limit_type:超過哪個特定限制(ITPM、OTPM、QPS 或 QPH)
  • limit:配置的限制值
  • current:您目前的使用情況
  • retry_after:建議等待時間(以秒為單位)

常見問題和解決方案

問題 Solution
429 錯誤頻發 實作指數退避、降低請求速率,並要求更高的速率限制
已達到 ITPM 限制 優化提示長度
已達到 OTPM 限制 max_tokens 來限制回應長度
已達到 QPH 限制 隨著時間的推移更均勻地分配請求

佈建的輸送量限制

對於需要較高限制的生產工作負載,佈建輸送量端點提供:

  • 無 TPM 限制:以佈建資源為基礎的處理容量
  • 較高的速率限制:每個工作區每秒最多 200 個查詢
  • 可預測的效能:專用資源確保一致的延遲

輸出代幣限制

備註

自 2026 年 5 月 15 日起,Meta-Llama-3.1-405B-Instruct 將停用。 請參閱 淘汰模型 , 以取得建議的取代模型,以及如何在淘汰期間移轉的指引。

下表摘要說明每個支援模型的輸出權杖限制:

型號 輸出代幣上限
GPT OSS 120B 25,000
GPT OSS 20B 25,000
傑瑪 3 12B 8,192
拉瑪 4 小牛 8,192
駱駝 3.1 405B 4,096
駱駝 3.1 70B 8,192
駱駝 3.1 8B 8,192

其他限制

以下是預設吞吐量工作負載的限制:

  • 若要從 system.ai Unity 目錄中部署 Meta Llama 模型,您必須選擇適用的 Instruct 版本。 不支援從 Unity 目錄部署 Meta Llama 模型的基底版本。 請參閱 部署佈建的輸送量端點
  • 對於使用 Llama 4 Maverick 的佈建輸送量工作負載:
    • 布建輸送量工作負載上此模型的支援處於 公開預覽狀態。
    • 不支援自動調整。
    • 不支援度量面板。
    • 為 Llama 4 Maverick 提供服務的端點不支援流量分割。 您無法在為 Llama 4 Maverick 提供服務的端點上提供多個模型。

區域可用性和資料處理

如需 Databricks 裝載的基礎模型區域可用性,請參閱 基礎模型概觀

如需資料處理和落地詳細資料,請參閱 資料處理和落地

其他資源