次の方法で共有


エージェント評価テスト ケースの採点

〜のために有効化されている パブリック プレビュー 一般公開
管理者、作成者、マーケティング担当者、またはアナリスト向けで、自動的に有効化される 2025 年 9 月 21 日 -

ビジネス バリュー

採点者フレームワークは、単純な合格/不合格以外の柔軟なスコア付け方法を導入することで、エージェントの評価を強化します。 作成者は、完全一致、キーワード チェック、類似性アルゴリズム、意図認識、AI 主導の品質メトリックから選択できるため、エージェントの応答のより正確で意味のある検証が可能になります。 この柔軟性により、チームはエラーを検出し、しきい値を微調整し、応答が失敗する理由を理解し、信頼を向上させ、反復を加速することができます。

機能の詳細

Copilot Studio のグレーザー機能は、柔軟で構成可能な方法でエージェントの応答を評価できるようにすることで、評価フレームワークを拡張します。 作成者は、二項合格/不合格のみに依存するのではなく、テスト ケースごとに最適な採点アプローチを選択し、さまざまなシナリオで精度、透明性、適応性を確保できるようになりました。

エージェントの応答を評価するには、品質、類似性、テキストの一致という 3 つのテスト方法 (グレーザーとも呼ばれます) から選択できます。 さまざまなテスト メソッドの詳細については、テスト メソッドを参照してください。

地域

Microsoft Azure でこの機能が計画または利用可能な地域を確認するには、Explore Feature Geography レポートをご覧ください。

利用可能な言語

この機能の可用性については、「 機能言語の探索 」レポートを参照してください。

エージェントを評価するテスト ケースを作成する (ドキュメント)