自動評価

完了

Microsoft Foundry ポータルで自動評価を行うと、モデル、データセット、またはプロンプト フローの品質とコンテンツの安全性のパフォーマンスを評価できます。

評価データ

モデルを評価するには、プロンプトと応答 (必要に応じて、"グラウンド トゥルース" として予期される応答) のデータセットが必要です。 このデータセットは手動でコンパイルすることも、既存のアプリケーションからの出力を使用することもできます。しかし、始めるのに便利な方法は、AI モデルを使用して、特定の主題に関連する一連のプロンプトと応答を生成することです。 その後、生成されたプロンプトと応答を編集して目的の出力を反映し、それらをグラウンド トゥルースとして使用して、別のモデルからの応答を評価できます。

AI によって生成された評価データのスクリーンショット。

評価メトリック

自動評価を使用すると、モデルの応答を評価する エバリュエーター と、それらのエバリュエーターが計算するメトリックを選択できます。 測定に役立つエバリュエーターがあります。

  • AI 品質: モデルの応答の品質を測定するには、AI モデルを使用して 、一貫性関連性 などのメトリックを評価し、(予想される応答テキストの形式で) 地上の真実に基づいて F1 スコア、BLEU、METEOR、および ROUGE などの標準的な NLP メトリックを使用します。
  • リスクと安全性: 暴力、ヘイト、性的コンテンツ、自傷行為に関連するコンテンツなど、コンテンツの安全性に関する問題に対する対応を評価する評価者。