エージェント評価テストケースの採点

〜のために有効化されている	パブリックプレビュー	一般公開
管理者、作成者、マーケティング担当者、またはアナリスト向けで、自動的に有効化される	2025 年 9 月 21 日	-

ビジネスバリュー

採点者フレームワークは、単純な合格/不合格以外の柔軟なスコア付け方法を導入することで、エージェントの評価を強化します。作成者は、完全一致、キーワードチェック、類似性アルゴリズム、意図認識、AI 主導の品質メトリックから選択できるため、エージェントの応答のより正確で意味のある検証が可能になります。この柔軟性により、チームはエラーを検出し、しきい値を微調整し、応答が失敗する理由を理解し、信頼を向上させ、反復を加速することができます。

機能の詳細

Copilot Studio のグレーザー機能は、柔軟で構成可能な方法でエージェントの応答を評価できるようにすることで、評価フレームワークを拡張します。作成者は、二項合格/不合格のみに依存するのではなく、テストケースごとに最適な採点アプローチを選択し、さまざまなシナリオで精度、透明性、適応性を確保できるようになりました。

エージェントの応答を評価するには、品質、類似性、テキストの一致という 3 つのテスト方法 (グレーザーとも呼ばれます) から選択できます。さまざまなテストメソッドの詳細については、テストメソッドを参照してください。

地域

Microsoft Azure でこの機能が計画または利用可能な地域を確認するには、Explore Feature Geography レポートをご覧ください。

利用可能な言語

この機能の可用性については、「機能言語の探索」レポートを参照してください。

エージェントを評価するテストケースを作成する (ドキュメント)

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-01-08

次の方法で共有

エージェント評価テスト ケースの採点

ビジネス バリュー

機能の詳細

地域

利用可能な言語

関連コンテンツ

フィードバック

その他のリソース

エージェント評価テストケースの採点

ビジネスバリュー