次の方法で共有


Foundation Model API の制限とクォータ

このページでは、Databricks Foundation Model API ワークロードの制限とクォータについて説明します。

Databricks Foundation Model API では、すべてのユーザーに対して信頼性の高いパフォーマンスと公平なリソース割り当てを確保するために、レート制限が適用されます。 これらの制限は、 ワークスペース プラットフォームレベル、基礎モデルの種類、および基盤モデルのデプロイ方法によって異なります。

トークンごとの支払いエンドポイントレートの制限

トークンごとの支払いエンドポイントは、トークンベースとクエリベースのレート制限によって管理されます。 トークン ベースのレート制限は、1 分あたりに処理できるトークンの最大数を制御し、入力トークンと出力トークンに対して個別に適用されます。

  • 1 分あたりの入力トークン数 (ITPM):60 秒のウィンドウ内で処理できる (プロンプトからの) 入力トークンの最大数。 ITPM レート制限は、エンドポイントの入力トークンのスループットを制御します。
  • 1 分あたりの出力トークン数 (OTPM): 60 秒の期間内に生成できる (モデルの応答からの) 出力トークンの最大数。 OTPM レート制限は、エンドポイントの出力トークンのスループットを制御します。
  • 1 時間あたりのクエリ数: 60 分以内に処理できるクエリまたは要求の最大数。 継続的な使用パターンを持つ運用アプリケーションの場合、Databricks では、保証された容量を提供するプロビジョニング済みスループット エンドポイントが推奨されます。

制限の追跡と適用方法

最も制限の厳しいレート制限 (ITPM、OTPM、QPH) は、いつでも適用されます。 たとえば、ITPM の制限に達していない場合でも、QPH または OTPM の制限を超えた場合でもレート制限が発生します。 ITPM または OTPM の制限に達すると、後続の要求は、受信された要求が多すぎることを示す 429 エラーを受け取ります。 このメッセージは、レート制限ウィンドウがリセットされるまで保持されます。

Databricks は、次の機能を使用して、1 分あたりのトークン (TPM) レート制限を追跡して適用します。

特徴 詳細
トークン会計と入学前チェック
  • 入力トークンのカウント: 入力トークンは、要求時に実際のプロンプトからカウントされます。
  • 出力トークンの見積もり: 要求に max_tokens を指定した場合、Databricks はこの値を使用して、要求が処理を許可される 前に 出力トークン容量を見積もり、予約します。
  • 受付前検証: Databricks は、処理を開始する前に、要求が ITPM または OTPM の制限を超えているかどうかを確認します。 max_tokensによって OTPM の制限を超える場合、Databricks は 429 エラーで要求を直ちに拒否します。
  • 実際の出力と推定される出力: 応答が生成されると、実際の出力トークンがカウントされます。 重要なのは、実際のトークン使用量が予約された max_tokensよりも少ない場合、Databricks はレート制限の許容量に差を戻し、それらのトークンを他の要求ですぐに使用できるようにします。
  • max_tokens指定しない: max_tokensを指定しない場合、Databricks は既定の予約を使用し、実際のトークン数は生成後に調整されます。 手記: Claude Sonnet 4 は、 max_tokens が設定されていない場合、特に既定で 1,000 個の出力トークンに設定され、完了理由 "length" が返されます。 これはモデルの最大コンテキスト長ではありません。 Claude 3.7 Sonnet には、このような既定値はありません。
バースト容量とスムージング
  • バースト バッファー: レート リミッターには、わずかなレートを超えるトラフィックの短いバーストに対応する小さなバッファーが含まれています。
  • スライディング ウィンドウ: トークンの消費量は、ハード/分境界よりもスムーズなレート制限を提供するスライディング ウィンドウ アルゴリズムを使用して追跡されます。
  • トークン バケット アルゴリズム: Databricks では、時間の経過に伴う平均レート制限を維持しながら、一部のバースト容量を可能にするトークン バケットの実装が使用されます。

入学前チェックとクレジットバック動作のしくみの例を次に示します。

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

モデル別のレート制限

次の表は、 Enterprise レベルワークスペースのトークンごとの支払い基盤モデル API エンドポイントの ITPM、OTPM、QPH レートの制限をまとめたものです。

2026 年 2 月 15 日より、Meta-Llama-3.1-405B-Instruct は廃止されます。 推奨 される置換モデルについては廃止されたモデル を参照し、非推奨の間に移行する方法についてはガイダンスを参照してください。

大規模言語モデル ITPM の制限 OTPM の制限 QPH の制限 注記
Qwen3-Next 80B A3B Instruct (ベータ) 200,000 10,000 汎用 LLM
GPT OSS 120B 200,000 10,000 汎用 LLM
GPT OSS 20B 200,000 10,000 より小さい GPT バリアント
Gemma 3 12B 200,000 10,000 7,200 Google の Gemma モデル
Llama 4 Maverick 200,000 10,000 2,400 最新のラマ リリース
Llama 3.3 70B の指示 200,000 10,000 2,400 ●中規模ラマモデル
ラマ 3.1 8B 指示 200,000 10,000 7,200 軽量ラマモデル
Llama 3.1 405B の指示 5,000 500 1,200
  • 最大ラマモデル - サイズによる制限の削減
アントロピック クロード モデル ITPM の制限 OTPM の制限 注記
Claude 3.7 Sonnet 50,000 5,000 バランスの取れたクロード モデル
クロード・ソネット第4番 50,000 5,000
Claude Opus 4.1 50,000 5,000
Claude Opus 4.5 200,000 20,000 最新の Opus バージョン
Claude Sonnet 4.5 50,000 5,000 最新の Sonnet バージョン
モデルの埋め込み ITPM の制限 OTPM の制限 QPH の制限 注記
GTE Large (En) N/A N/A 540,000 テキスト埋め込みモデル - 正規化された埋め込みを生成しません
BGE Large (En) N/A N/A 2,160,000 テキスト埋め込みモデル

TPM レート制限のベスト プラクティスを管理する

ステップ 1. トークンの使用状況を監視する

アプリケーションで入力トークン数と出力トークン数の両方を個別に追跡します。

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

手順 2. 再試行ロジックを実装する

レート制限エラーが発生したときに指数バックオフを追加します。

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

手順 3. トークンの使用を最適化する

  • プロンプトの長さを最小限にする: 簡潔で適切に構造化されたプロンプトを使用する
  • 出力長の制御: max_tokens パラメーターを使用して応答サイズを制限する
  • Claude Sonnet 4 に対して明示的にmax_tokensを設定する: 既定の 1,000 トークン制限を回避するには、常に Claude Sonnet 4 を使用するときに max_tokens を指定します
  • バッチ効率: 可能な限り、制限内に留めながら関連する要求をグループ化する

手順 4. モデルの選択を検討する

  • 大量のタスク用の小さいモデル: より高いスループットを必要とするタスクには、Llama 3.1 8B などのモデルを使用します
  • 複雑なタスク用の大規模なモデル: 最大機能を必要とするタスク用に Llama 3.1 405B を予約する

監視とトラブルシューティング

トークンの使用パターンを監視してパフォーマンスを最適化します。

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

レート制限エラーの処理

レート制限を超えると、API は 429 Too Many Requests エラーを返します。

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

エラー応答には次のものが含まれます。

  • limit_type: 特定の制限を超えた (ITPM、OTPM、QPS、または QPH)
  • limit: 構成された制限値
  • current: 現在の使用状況
  • retry_after: 推奨される待機時間 (秒単位)

一般的な問題と解決策

問題点 解決策
頻繁な 429 エラー 指数バックオフを実装し、要求レートを下げ、より高いレート制限を要求する
ITPM の制限に達しました プロンプトの長さを最適化する
OTPM の制限に達しました max_tokensを使用して応答の長さを制限する
QPH 制限に達しました 時間の経過と同時に要求をより均等に分散する

プロビジョニングされたスループットの制限

より高い制限を必要とする運用環境のワークロードの場合、プロビジョニングされたスループット エンドポイントは次の機能を提供します。

  • TPM の制限なし: プロビジョニングされたリソースに基づく処理能力
  • レート制限の引き上げ: ワークスペースあたり 1 秒あたり最大 200 クエリ
  • 予測可能なパフォーマンス: 専用リソースによって一貫した待機時間が確保される

出力トークンの制限

2026 年 5 月 15 日より、Meta-Llama-3.1-405B-Instruct は廃止されます。 推奨 される置換モデルについては廃止されたモデル を参照し、非推奨の間に移行する方法についてはガイダンスを参照してください。

次の表は、サポートされている各モデルの出力トークンの制限をまとめたものです。

モデル 出力トークンの制限
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4,096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

追加の制限

プロビジョニングされたスループット ワークロードの制限事項を次に示します。

  • Unity カタログの system.ai から Meta Llama モデルをデプロイするには、該当する Instruct バージョンを選択する必要があります。 Meta Llama モデルの基本バージョンは、Unity カタログからのデプロイではサポートされていません。 プロビジョニング済みスループット エンドポイントのデプロイに関する説明を参照してください。
  • Llama 4 Maverick を使用するプロビジョニング済みスループット ワークロードの場合:
    • プロビジョニングされたスループット ワークロードでのこのモデルのサポートは、 パブリック プレビュー段階です
    • 自動スケールはサポートされていません。
    • メトリック パネルはサポートされていません。
    • Llama 4 Maverick にサービスを提供するエンドポイントでは、トラフィックの分割はサポートされていません。 Llama 4 Maverick にサービスを提供するエンドポイントで複数のモデルを提供することはできません。

リージョンの可用性とデータ処理

Databricks でホストされる基盤モデルのリージョンの可用性については、「 Foundation Model の概要」を参照してください。

データ処理と所在地の詳細については、 データ処理と常駐を参照してください。

その他のリソース