次の方法で共有


Microsoft Foundry ポータルで評価結果を表示する

このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。

🔄新しいポータルを使用している場合は、Microsoft Foundry (新しい) ドキュメントに切り替えます

このドキュメントでは、 Microsoft Foundry (新しい) ポータルを参照します。

Microsoft Foundry ポータルで評価結果を表示する方法について説明します。 AI モデルの評価データ、パフォーマンス メトリック、品質評価を表示して解釈します。 フロー、プレイグラウンド セッション、SDK から結果にアクセスして、データドリブンの意思決定を行います。

評価結果を視覚化したら、それらを十分に調べます。 個々の結果を表示し、複数の評価実行間で比較し、傾向、パターン、不一致を特定して、さまざまな条件下で AI システムのパフォーマンスに関する分析情報を得ることができます。

この記事では、次の方法について説明します。

  • 評価ランを見つけて開いてください。
  • 集計とサンプル レベルのメトリックを表示します。
  • 実行間で結果を比較します。
  • メトリックのカテゴリと計算を解釈します。
  • メトリックの不足または部分的なトラブルシューティングを行います。

評価結果を表示する

評価を送信したら、[評価] ページで実行を見つけます。 列をフィルター処理または調整して、関心のある実行に焦点を合わせます。 詳細を掘り下げて見る前に、概要レベルのメトリックを簡単に確認できます。

ヒント

評価の実行は、任意のバージョンの promptflow-evals SDK または azure-ai-evaluation バージョン 1.0.0b1、1.0.0b2、1.0.0b3 で表示できます。 すべての実行を表示のトグルをオンにして、実行を特定します。

[定義と数式の メトリックの詳細を確認 する] を選択します。

評価メトリックの詳細を示すスクリーンショット。

実行を選択して、詳細 (データセット、タスクの種類、プロンプト、パラメーター) とサンプルごとのメトリックを開きます。 メトリック ダッシュボードでは、メトリックごとの合格率または集計スコアが視覚化されます。

注意事項

以前にモデルのデプロイを管理し、 oai.azure.comを使用して評価を実行した後、Microsoft Foundry 開発者プラットフォームにオンボードしたユーザーは、 ai.azure.comを使用するときに次の制限があります。

  • これらのユーザーは、Azure OpenAI API を使用して作成された評価を表示できません。 これらの評価を表示するには、 oai.azure.comに戻る必要があります。
  • これらのユーザーは、Azure OpenAI API を使用して Foundry 内で評価を実行することはできません。 代わりに、このタスクには引き続き oai.azure.com を使用する必要があります。 ただし、データセット評価の作成オプションで Foundry (ai.azure.com) で直接使用できる Azure OpenAI エバリュエーターを使用できます。 デプロイが Azure OpenAI から Foundry への移行である場合、微調整されたモデル評価のオプションはサポートされません。

データセットのアップロードと独自のストレージの持ち込みのシナリオには、いくつかの構成要件があります。

  • アカウント認証は Microsoft Entra ID である必要があります。
  • ストレージをアカウントに追加する必要があります。 プロジェクトに追加すると、サービス エラーが発生します。
  • ユーザーは、Azure portal でアクセス制御を使用して、自分のプロジェクトをストレージ アカウントに追加する必要があります。

Azure OpenAI ハブで OpenAI 評価グレードを使用して評価を作成する方法の詳細については、「 Foundry モデルの評価で Azure OpenAI を使用する方法」を参照してください。

Microsoft Foundry では、グループ実行の概念が導入されています。 比較を容易にするために、メトリックやデータセットなどの共通の特性を共有する複数の実行をグループ内に作成できます。 評価を実行したら、[ 評価 ] ページでグループを見つけます。このページには、グループ評価の一覧と、ターゲットの数や最終変更日などの関連するメタデータが含まれます。

グループ実行を選択して、各実行と、そのグループ内の各実行の実行の実行時間、トークン、エバリュエーター スコアなどの高レベルメトリックを含むグループの詳細を確認します。

このグループ内の実行を選択すると、ドリルインしてその特定の実行の行詳細データを表示することもできます。

[定義と数式の メトリックの詳細を確認 する] を選択します。

指標ダッシュボード

メトリック ダッシュボード セクションでは、集計ビューは、AI 品質 (AI アシスト)リスクと安全性 (プレビュー)AI 品質 (NLP)、カスタム (該当する場合) を含むメトリックによって分類されます。 結果は、評価の作成時に選択された条件に基づいて、合格/不合格の割合として測定されます。 メトリック定義とその計算方法の詳細については、「 エバリュエーターとは」を参照してください。

  • AI 品質 (AI 支援) メトリックの場合、メトリックごとにすべてのスコアを平均することで結果が集計されます。 Groundedness Pro を使用する場合、出力はバイナリであり、集計スコアは合格率です:(#trues / #instances) × 100 AI 品質 (AI 支援) メトリック ダッシュボード タブを示すスクリーンショット。
  • リスクと安全性 (プレビュー) メトリックの場合、結果は欠陥率によって集計されます。
    • コンテンツの損害: 重大度しきい値を超えるインスタンスの割合 (既定の Medium)。
    • 保護されたマテリアルと間接攻撃の場合、欠陥率は、数式trueを使用して出力が(Defect Rate = (#trues / #instances) × 100)されるインスタンスの割合として計算されます。 [リスクと安全性の指標] ダッシュボード タブを示すスクリーンショット。
  • AI 品質 (NLP) メトリックの場合、結果はメトリックごとの平均スコアによって集計されます。 AI 品質 (NLP) ダッシュボード タブを示すスクリーンショット。

評価実行の結果と合格率

[Evaluation Runs and Results Pass Rate]\(評価実行と結果の成功率\) ページで、グループ内の各実行を表示できます。 このビューには、選択した各エバリュエーターの実行、ターゲット、状態、実行期間、トークン、および合格率が表示されます。

実行を取り消す場合は、各実行を選択し、テーブルの上部にある [実行の取り消し] をクリックします。

詳細メトリックの結果テーブル

ダッシュボードの下のテーブルを使用して、各データ サンプルを調べます。 メトリックで並べ替えて、最もパフォーマンスの低いサンプルを表示し、体系的なギャップ (不適切な結果、安全性の失敗、待機時間) を特定します。 クラスター関連の障害に関するトピックを検索して使用します。 列のカスタマイズを適用して、主要なメトリックに焦点を当てます。

一般的なアクション:

  • 定期的なパターンを検出するために低いスコアをフィルター処理します。
  • システム的なギャップが発生した場合は、プロンプトを調整したり、微調整を行います。
  • オフライン分析用にエクスポートします。

質問に回答するシナリオのメトリック結果の例を次に示します。

質問に回答するシナリオのメトリックの結果を示すスクリーンショット。

一部の評価にはサブ評価子があり、サブ評価の結果の JSON を表示できます。 結果を表示するには、[ JSON で表示] を選択します。

JSON が選択された詳細なメトリックの結果を示すスクリーンショット。

JSON プレビューで JSON を表示します。

JSON プレビューを示すスクリーンショット。

会話シナリオのメトリック結果の例を次に示します。 複数ターンの会話全体で結果を確認するには、[会話] 列の [ターンごとの評価結果の表示] を選択します。

会話シナリオのメトリックの結果を示すスクリーンショット。

[1 ターンあたりの評価結果の表示] を選択すると、次の画面が表示されます。

ターンごとの評価結果を示すスクリーンショット。

マルチモーダル シナリオ (テキストと画像) での安全性評価の場合は、詳細メトリック結果テーブルの入力と出力の両方の画像を確認することで、評価結果をよりよく理解できます。 マルチモーダル評価は現在、会話シナリオでのみサポートされているため、[ 1 ターンあたりの評価結果の表示 ] を選択して、各ターンの入力と出力を確認できます。

会話列の画像ダイアログを示すスクリーンショット。

画像を選択して展開し、表示します。 既定では、すべての画像はぼかして表示され、有害なコンテンツから保護されます。 画像を明確に表示するには、[ ぼかし画像のチェック ]トグルをオンにします。

ぼやけた画像と[ぼかし画像のチェック]トグルを示すスクリーンショット。

評価結果は、異なる対象ユーザーに対して異なる意味を持つ場合があります。 たとえば、安全性評価では、特定の暴力コンテンツがどの程度深刻であるかという人間のレビュー担当者の定義と一致しない可能性がある、暴力コンテンツの重大度が いラベルが生成される場合があります。 評価の作成時に設定された合格基準により、合格または不合格が割り当てられるかどうかが決まります。 評価結果を確認するときに、「サムズアップ」または「サムズダウン」のアイコンを選択できる 人間のフィードバック 列があります。 この列を使用すると、人間のレビュー担当者によって承認または正しくないとしてフラグが設定されたインスタンスをログに記録できます。

人間のフィードバックを含むリスクと安全メトリックの結果を示すスクリーンショット。

各コンテンツ リスク メトリックを理解するには、[ レポート ] セクションでメトリック定義を表示するか、 メトリック ダッシュボード セクションでテストを確認します。

実行に問題がある場合は、ログを使用して評価実行をデバッグすることもできます。 評価実行のデバッグに使用できるログの例を次に示します。

評価実行のデバッグに使用できるログを示すスクリーンショット。

プロンプト フローを評価する場合は、[ フローで表示 ] ボタンを選択して、評価されたフロー ページに移動し、フローを更新できます。 たとえば、追加のメタ プロンプト命令を追加したり、いくつかのパラメーターを変更して再評価したりできます。

評価用実行データ

個々の実行のターン ごとのターン データを表示するには、実行の名前を選択します。 これにより、使用される各エバリュエーターに対してターンで評価結果を表示できるビューが提供されます。

評価結果を比較する

2 つ以上の実行を比較するには、目的の実行を選択し、プロセスを開始します。 詳細なダッシュボード ビューの [ 比較 ] ボタンまたは [ダッシュボード ビューに切り替える ] ボタンを選択します。 複数の実行のパフォーマンスと結果を分析して比較し、情報に基づいた意思決定を行い、対象を絞った改善を行います。

評価を比較するオプションを示すスクリーンショット。

ダッシュボード ビューでは、メトリック分布比較 グラフ と比較テーブルという 2 つの重要なコンポーネントにアクセス できます。 これらのツールを使用して、選択した評価実行のサイド バイ サイド分析を実行できます。 各データ サンプルのさまざまな側面を簡単かつ正確に比較できます。

既定では、古い評価実行では列間の行が一致します。 ただし、新しく実行する評価は、評価の作成時に一致する列を持つよう意図的に構成する必要があります。 比較するすべての評価で、抽出 条件名 の値と同じ名前が使用されていることを確認します。

次のスクリーンショットは、フィールドが同じ場合の結果を示しています。

フィールドが同じ場合の自動評価を示すスクリーンショット。

ユーザーが評価の作成に同じ 抽出条件名 を使用しない場合、フィールドが一致しないため、プラットフォームで結果を直接比較できなくなります。

フィールドが同じでない場合の自動評価を示すスクリーンショット。

比較表で、参照ポイントとして使用する実行にマウス ポインターを合わせ、それをベースラインとして設定します。 「差分の表示」トグルを有効にして、数値のベースラインと他の実行の間の違いを視覚化します。 [ 違いのみを表示 ] トグルを選択すると、選択した実行間で異なる行のみが表示され、バリエーションを特定できます。

これらの比較機能を使用すると、情報に基づいて最適なバージョンを選択することができます。

  • ベースライン比較: ベースライン実行を設定することで、他の実行を比較する基準点を特定できます。 各実行が選択した標準からどのように逸脱しているかを確認できます。
  • 数値評価: [ 差分の表示 ] オプションを有効にすると、ベースラインと他の実行の違いの程度を理解するのに役立ちます。 この情報は、特定の評価メトリックに関して、さまざまな実行のパフォーマンスを評価するのに役立ちます。
  • 差の分離: [違いのみを表示] 機能を使用すると、実行間に不一致がある領域のみが強調表示され、分析が効率化されます。 この情報は、改善や調整が必要な場所を特定するのに有用です。

比較ツールを使用して、最もパフォーマンスの高い構成を選択し、安全性や接地の回帰を回避します。

サイド バイ サイドの評価結果を示すスクリーンショット。

2 つ以上の実行間の包括的な比較を容易にするために、目的の実行を選択してプロセスを開始できます。

  1. 評価の詳細ページで 2 つ以上の実行を選択します。
  2. [Compare]\(比較\) を選択します。

選択したすべての実行に対して並べて比較するビューが生成されます。

比較は統計 t 検定に基づいて計算され、より機密性の高い信頼性の高い結果が得られ、意思決定を行うことができます。 この機能の異なる機能を使用できます。

  • ベースライン比較: ベースライン実行を設定することで、他の実行を比較する基準点を特定できます。 各実行が選択した標準からどのように逸脱しているかを確認できます。
  • 統計 t 検定評価: 各セルは、統計的有意性の結果を異なる色分けで示します。 セルをポイントして、サンプル のサイズと p 値を取得することもできます。
伝説 Definition
ImprovedStrong 統計的に有意(p<=0.001)で、目的の方向に移行しました。
改善された弱点 Stat-sig (0.001<p<=0.05) を使用して目的の方向に移動
DegradedStrong 統計的有意性が非常に高い(p<=0.001)結果が期待とは逆の方向に動きました。
DegradedWeak Stat-sig (0.001<p<=0.05) が正しくない方向に移動しました
ChangedStrong 統計的に有意 (p<=0.001) で、目的の方向性は中立です。
ChangedWeak Stat-sig (0.001<p<=0.05) で、目的の方向はニュートラルです
結果不確定 例が少なすぎる、または p>=0.05

比較ビューは保存されません。 ページを離れた場合は、実行を再度選択し、[比較] を選択してビューを再生成できます。

脱獄の脆弱性を測定する

脱獄の脆弱性の評価は、AI 支援メトリックではなく、比較測定です。 2 つの異なるレッドチーミングされたデータセットに対して評価を実行します。つまり、ベースラインの敵対的テスト データセットと、最初のターンにジェイルブレイク インジェクションがある同じ敵対的テスト データセットです。 敵対的データ シミュレーターを使用して、ジェイルブレイク インジェクションの有無にかかわらずデータセットを生成できます。 実行を構成するときに、評価メトリックごとに 条件名 の値が同じであることを確認します。

アプリケーションが脱獄に対して脆弱かどうかを確認するには、ベースラインを指定し、比較表の 脱獄欠陥率 トグルをオンにします。 脱獄の欠陥率は、あなたのテストデータセットにおいて、脱獄挿入により、どのコンテンツリスクメトリックにおいても、データセット全体のベースラインと比較して重大度スコアがより高くなるインスタンスの割合です。 [比較] ダッシュボードで複数の評価を選択して、欠陥率の差を表示します。

ジェイルブレイクバグがオンになっているサイドバイサイド評価結果のスクリーンショット。

ヒント

脱獄の欠陥率は、同じサイズのデータセットに対してのみ計算され、すべての実行がコンテンツリスクおよび安全性メトリックを含む場合に適用されます。

組み込みの評価メトリックを理解する

組み込みのメトリックを理解することは、AI アプリケーションのパフォーマンスと有効性を評価するために不可欠です。 これらの主要な測定ツールについて学習することで、結果を解釈し、情報に基づいた意思決定を行い、アプリケーションを微調整して最適な結果を得ることができます。

詳細については、「 エバリュエーターとは」を参照してください。

トラブルシューティング

症状 考えられる原因 アクション
実行は保留中のまま サービスの高負荷、またはキューに登録されたジョブ 更新、クォータの確認、延長された場合の再送信
メトリックが見つからない 作成時に選択されていません 必要なメトリックを再実行して選択する
すべての安全メトリックゼロ カテゴリが無効になっているか、サポートされていないモデル モデルとメトリックのサポート マトリックスを確認する
接地性が予期せず低い 取得/コンテキストが不完全 コンテキストの構築/取得の待機時間を確認する

生成 AI アプリケーションを評価する方法について説明します。