生成 AI アプリケーションのモデルの監視 (プレビュー)

運用環境でモデルを監視することは、AI ライフサイクルに不可欠な作業です。データやコンシューマーの行動の変化は、時間の経過と共に生成 AI アプリケーションに影響を与える可能性があり、その結果、システムが時代遅れになり、ビジネス成果に悪影響を及ぼし、組織をコンプライアンス、経済、評判のリスクにさらすことになります。

重要

生成 AI アプリケーションのモデルモニタリングは現在パブリックプレビュー段階です。これらのプレビューは、サービスレベルアグリーメントなしで提供されており、運用ワークロードにはお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

生成型 AI アプリケーションに対する Azure Machine Learning モデルの監視により、運用中の LLM アプリケーションの安全性と品質を定期的に監視し、ビジネスへの影響を最大限に高めることができます。監視は最終的に、生成 AI アプリケーションの品質と安全性を維持するのに役立ちます。機能と統合には、次のものが含まれます。

モデルデータコレクターを使用して運用データを収集する。
現実性、一貫性、流暢性、関連性、類似性などの責任ある AI 評価メトリック。これは、Azure Machine Learning プロンプトフロー評価メトリックと相互運用可能。
組織のターゲットに基づいて違反のアラートを構成し、定期的に監視を実行する機能。
Azure Machine Learning スタジオのワークスペース内のリッチダッシュボードで結果を使用する。
Azure Machine Learning プロンプトフロー評価メトリックとの統合、収集された運用データの分析によるタイムリーなアラートの提供、時間の経過に伴うメトリックの視覚化。

モデルの監視全体の基本的な概念については、「Azure Machine Learning を使用したモデルの監視 (プレビュー)」を参照してください。この記事では、マネージドオンラインエンドポイントによってサポートされる生成 AI アプリケーションを監視する方法について説明します。これを実行する手順は次のとおりです。

前提条件を構成する
モニターを作成する
監視状態を確認する
監視結果を使用する

評価メトリック

メトリックは、シーケンス間タスクのエバリュエーターモデルとして機能する特定の評価命令 (プロンプトテンプレート) で構成された、次の最新の GPT 言語モデルによって生成されます。この手法は、標準的な生成 AI 評価メトリックと比較すると、強力な経験結果と、人間の判断との高い相関関係を示しています。プロンプトフローの評価の詳細については、「一括テストの送信とフローの評価 (プレビュー)」を参照してください。

これらの GPT モデルはサポートされており、Azure OpenAI リソースとして構成されます。

GPT-3.5 ターボ
GPT-4
GPT-4-32k

次のメトリックがサポートされています。各メトリックの詳細については、「監視評価メトリックの説明とユースケース」を参照してください。

Groundedness: モデルの生成された回答が入力ソースからの情報とどの程度一致しているかを評価します。
関連性: モデルによって生成された応答が関連し、特定の質問に直接関連する範囲を評価します。
一貫性: 言語モデルがスムーズに流れ、自然に読み取り、人間のような言語に似た出力を生成できる程度を評価します。
流暢性: 生成 AI の予測回答の言語能力を評価します。これは、生成されたテキストが文法規則、統語構造、語彙の適切な使用にどの程度準拠しており、言語的に正しくかつ自然な応答になっているかを評価します。
類似性: 地上真偽文 (またはドキュメント) と AI モデルによって生成された予測文の類似性を評価します。

メトリックの構成要件

生成の安全性と品質を測定するには、次の入力 (データ列名) が必要です。

prompt text - 指定された元のプロンプト ("入力" または "質問" とも呼ばれます)
完了テキスト - 返される API 呼び出しからの最終的な完了 ("outputs" または "answer" とも呼ばれます)
コンテキストテキスト - 元のプロンプトと共に API 呼び出しに送信されるコンテキストデータ。たとえば、特定の認定情報ソース/Web サイトからのみ検索結果を取得する場合は、評価手順でこれを定義できます。これは、プロンプトフローを通じて構成できる省略可能なステップです。
グラウンドトゥルーステキスト - "信頼のソース" としてのユーザー定義テキスト (省略可能)

次の表に示すように、データ資産で構成されるパラメーターによって、生成できるメトリックが決まります。

メトリック	Prompt	Completion	Context	グランドトゥルース
一貫性	必須	必須	-	-
流暢性	必須	必須	-	-
現実性	必須	必須	必須	-
関連性	必須	必須	必須	-
Similarity	必須	必須	-	必須

前提条件

Azure OpenAI リソース: 十分なクォータを使用して作成された Azure OpenAI リソースが必要です。このリソースは、評価エンドポイントとして使用されます。
マネージド ID: ユーザー割り当てマネージド ID (UAI) を作成し、「CLI v2 を使用してユーザー割り当てマネージド ID をアタッチし、十分なロールアクセス権を持つユーザー割り当てマネージド ID をアタッチする」のガイダンスを使用してワークスペースにアタッチします。次の手順で定義します。
ロールアクセス: 必要なアクセス許可を持つロールを割り当てるには、リソースに対する 所有者 または Microsoft.Authorization/roleAssignments/write アクセス許可が必要です。接続とアクセス許可の更新が有効になるまでに数分かかる場合があります。これらの追加ロールを UAI に割り当てる必要があります。
- リソース: ワークスペース
- ロール: Azure Machine Learning データ科学者
ワークスペース接続:このガイダンスに従って、監視メトリックの計算に使用される Azure OpenAI エンドポイントの資格情報を表すマネージド ID を使用します。フローで使用した接続は削除しないでください。
- API バージョン: 2023-03-15-preview
プロンプトフローのデプロイ:このガイダンスに従ってプロンプトフローランタイムを作成し、フローを実行し、この記事をガイドとして使用してデプロイが構成されていることを確認します。
- フローの入力と出力: フロー出力に適切な名前を付け、モニターの作成時にこれらの列名を覚える必要があります。この記事では、次の名前を使用します。
  - 入力 (必須): "prompt"
  - 出力 (必須): "completion"
    - 出力 (省略可能): "context" | "ground truth"
- データ収集： "配置" (プロンプトフロー展開ウィザードの手順 2) では、モデルデータコレクターを使用して "推論データ収集" トグルを有効にする必要があります。
- 出力： 出力 (プロンプトフロー展開ウィザードの手順 3) で、メトリック構成要件を満たす必要な出力 (完了 | コンテキスト | ground_truthなど) が選択されていることを確認します。

Note

コンピューティングインスタンスが VNet の背後にある場合、「プロンプトフローのネットワークの分離」を参照してください。

モニターを作成する

[監視の概要] ページでモニターを作成する:

基本監視設定を構成する

監視作成ウィザードで、スクリーンショットの (A) に示すように、[モデルタスクの種類] を [プロンプトと完了] に変更します。

データ資産を構成する

モデルデータコレクターを使用している場合は、2 つのデータ資産 (入力と出力) を選択します。

監視シグナルを選択する

ワークスペース接続を構成します (スクリーンショットの (A))。
1. ワークスペース接続を正しく構成する必要があります。または、未
Azure OpenAI エバリュエーターのデプロイ名を入力します (B)。
(省略可能)運用データの入力と出力を結合する: 運用モデルの入力と出力は、監視サービス (C) によって自動的に結合されます。これは、必要に応じてカスタマイズできますが、何もする必要はありません。既定では、結合列は Correlationid です。
(省略可能) メトリックのしきい値を構成します。インスタンスごとの許容スコアは、3/5 に固定されています。あなたは範囲[1,99]%の間にあなたの許容可能な全体的な % 通過率を調整することができます.

プロンプトフローの列名を手動で入力します (E)。標準名は ("prompt" |"completion" |"context" |"ground_truth") ですが、データ資産に応じて構成できます。
(省略可能)サンプリングレート (F) を設定します。
構成すると、シグナルに警告は表示されなくなります。