可観測性を理解する
生成 AI の応答品質を測定する方法は多数あります。 一般に、生成 AI を評価および監視するための 3 つのディメンションを考えることができます。 これらには次のものが含まれます。
- パフォーマンスと品質エバリュエーター: 生成されたコンテンツの精度、根拠、関連性を評価します。
- リスクと安全性の評価者: AI によって生成されたコンテンツに関連する潜在的なリスクを評価して、コンテンツ のリスクから保護します。 これには、AI システムが有害または不適切なコンテンツを生成する傾向の評価が含まれます。
- カスタム エバリュエーター: 特定のニーズと目標を満たす業界固有のメトリック。
Microsoft Foundry は、生成型 AI 応答のパフォーマンスと信頼性を向上させる 可観測 機能をサポートしています。 エバリュエーター は、AI 応答の品質、安全性、信頼性を測定する Microsoft Foundry の特殊なツールです。
評価者には、以下のような例があります。
- Groundedness: 取得されたコンテキストに対する応答の一貫性を測定します。
- 関連性: クエリに対する応答の関連性を測定します。
- 流暢性: 自然言語の品質と読みやすさを測定します。
- 一貫性: 論理的な一貫性と応答のフローを測定します。
- コンテンツの安全性: さまざまな安全上の懸念事項の包括的な評価。
次に、Microsoft Foundry で生成型 AI 機能を試してみましょう。