次の方法で共有


カスタマイズされた審査員

カスタム LLM ジャッジを使用すると、自然言語を使用して GenAI アプリケーションの複雑で微妙なスコアリング ガイドラインを定義できます。

MLflow の組み込みのLLMのジャッジ は共通の品質次元のための優秀な出発点を提供するが、 make_judge() を使用して作成されたカスタムジャッジは評価基準を完全に制御できる。

プロンプトとテンプレート変数

ジャッジを作成するには、エージェントの品質を評価する方法に関する自然言語の指示をプロンプトで提供します。 make_judge() は、エージェントの入力、出力、予想される出力または動作、さらには完全なトレースにアクセスするためのテンプレート変数を受け入れます。

手順には少なくとも 1 つのテンプレート変数を含める必要がありますが、すべてを使用する必要はありません。

  • {{ inputs }} - エージェントに提供される入力データ
  • {{ outputs }} - エージェントによって生成された出力データ
  • {{ expectations }} - 基底真理または予想される結果
  • {{ trace }} - エージェントの完全な実行ログ

これらは、使用できる唯一の変数です。 {{ question }}のようなカスタム変数は、一貫した動作を保証し、テンプレートの挿入の問題を防ぐために検証エラーをスローします。

トレースベースのジャッジ

トレースベースのジャッジは、実行トレースを分析して、エージェントの実行中に何が起こったかを理解します。 彼らはモデル コンテキスト プロトコル (MCP) ツールを使用してトレースを自律的に探索し、次のことができます。

  • ツールの使用パターンを検証する
  • パフォーマンスのボトルネックを特定する
  • 実行エラーを調査する
  • 複数ステップのワークフローを確認する

次の例では、トレースを分析してツール呼び出しの正確性を評価するジャッジを定義します。

from mlflow.genai.judges import make_judge
from typing import Literal

# Agent judge for tool calling correctness
tool_usage_judge = make_judge(
    name="tool_usage_validator",
    instructions=(
        "Analyze the {{ trace }} to verify correct tool usage.\n\n"
        "Check that the agent selected appropriate tools for the user's request "
        "and called them with correct parameters."
    ),
    feedback_value_type=Literal["correct", "incorrect"],
    model="databricks:/databricks-gpt-5-mini"  # Required for trace-based judges
)

トレース ベースのジャッジが完全なトレースを分析するには、 model 引数を make_judge() で指定する必要があります。

完全なチュートリアルについては、「make_judge()を使用してカスタム ジャッジを作成する」を参照してください。

トレースベースの評価システムのモデル要件

トレースベースのジャッジには、トレース分析が可能なモデルが必要です。 モデルは次の方法で提供できます。

推奨されるモデル:

  • databricks:/databricks-gpt-5-mini
  • databricks:/databricks-gpt-5
  • databricks:/databricks-gpt-oss-120b
  • databricks:/databricks-claude-opus-4-1

ジャッジの指示を書く際のベスト プラクティス

予想される出力形式について具体的に指定します。 あなたの指示は、判事が返す必要がある形式を明確に指定する必要があります。

  • カテゴリの応答: 特定の値を一覧表示します (例: "fully_resolved"、"partially_resolved"、"needs_follow_up")
  • ブール値の応答: ジャッジがtrueまたはfalseを返すべきであると明示的に述べる。
  • 数値スコア: スコアリング範囲と各スコアの意味を指定します

複雑な評価を分解します。 複雑な評価タスクの場合は、手順を明確なセクションに構成します。

  • 評価対象
  • 調査する情報
  • 判断の方法
  • どんな形式で返すか

ジャッジを人間の専門家と一致させる

ベースジャッジは出発点です。 アプリケーションの出力に関する専門家のフィードバックを収集する際に、LLM のジャッジをフィードバックに合わせて、ジャッジの精度をさらに向上させることができます。 「 ジャッジを人間に合わせる」を参照してください。

次のステップ

標準とトレースベース の両方のジャッジ を示すハンズオン チュートリアルについては、「カスタム ジャッジの作成」を参照してください。