カスタムトレーニング可能な分類子を作成する

6 分

組織では、多くの場合、予測可能なパターンに従わない非構造化データを分類する必要があります。 カスタムトレーニング可能な分類子 を使用すると、AI ベースの分析用のサンプルドキュメントを提供することで、一意のコンテンツを認識するように Microsoft Purview をトレーニングできます。トレーニングが完了すると、分類子を使用してコンテンツの自動ラベル付け、保持ポリシーの適用、通信コンプライアンスのサポートを行うことができます。

トレーニング可能な分類子のしくみ

トレーニング可能な分類子は、機械学習を使用して、定義済みのパターンではなく、意味とコンテキストに基づいてコンテンツを検出します。キーワードやパターンベースの検出に依存する機密情報の種類 (SID) とは異なり、トレーニング可能な分類子は、実際の例を分析することで分類の精度を向上させます。

分類子を作成するには、関連するドキュメントと無関係なドキュメントの両方を含むサンプルコンテンツを使用してモデルをトレーニングする必要があります。このプロセスは、分類カテゴリに属するデータとそうでないデータをモデルで区別するのに役立ちます。

要件

分類子を作成する前に、ライセンスとアクセス許可の要件を満たしていることを確認してください。

ライセンス

Microsoft Purview のトレーニング可能な分類子には、次のいずれかのライセンスの組み合わせが必要です。

Microsoft 365 E5
Microsoft 365 E5 Compliance
Microsoft Purview Information Protectionおよびガバナンスアドオンを使用したMicrosoft 365 E3

これらのライセンスには、トレーニング可能な分類子、正確なデータ一致、名前付きエンティティ、コンテキスト分析などの高度な分類機能へのアクセスが含まれます。

アクセス許可

トレーニング可能な分類子を作成および管理するには、ユーザーに適切なロールアクセス許可が必要です。必要なアクセス許可は、分類子を使用する場所によって異なります。

シナリオ	必要なロールのアクセス許可
保持ラベルポリシー	レコード管理、保持管理
秘密度ラベルポリシー	セキュリティ管理者、コンプライアンス管理者、コンプライアンスデータ管理者
コミュニケーションコンプライアンスポリシー	インサイダーリスク管理管理者、監督レビュー管理者

重要

既定では、カスタム分類子を作成するユーザーのみが、その分類子によって行われた予測をトレーニングおよびレビューできます。

トレーニング可能な分類子を作成する手順

分類子の作成は、トレーニング、テスト、公開を含む構造化されたプロセスに従います。

手順 1: トレーニングデータを収集する

分類子をトレーニングするには、ユーザーが手動で選択した サンプルデータの 2 つのセット を指定する必要があります。

正の例 (50 から 500 項目): カテゴリに属するドキュメント。
負の例 (150 から 1500 項目): カテゴリに属していないドキュメント。

ヒント

トレーニングデータの多様性と選択度が高いほど、分類子の精度が高くなります。

手順 2: SharePoint にデータを格納する

正と負のサンプルを別の SharePoint フォルダーに格納します。これらのフォルダーに、それぞれのトレーニングデータのみが含まれていることを確認します。

注:

新しいフォルダーを作成する場合は、分類子のセットアップで使用する前に、インデックス作成を少なくとも 1 時間待ちます。

手順 3: トレーニング可能な分類子を作成する

Microsoft Purview ポータルにサインインします。
Information Protection>Classifiers>Trainable 分類子に移動します。
[ トレーニング可能な分類子の作成] を選択します。
名前と説明を入力します。
正の例の SharePoint フォルダー URL を追加し、[次へ] を選択します。
負の例の SharePoint フォルダー URL を追加し、[次へ] を選択します。
設定を確認し、[トレーニング可能な分類子の作成] を選択します。

作成されると、分類子はトレーニングデータの処理を開始します。処理時間はさまざまですが、通常 は 24 時間以内に完了します。

手順 4: 分類子を確認してテストする

分類子が十分な正と負のサンプルを処理したら、その予測を確認する必要があります。

分類子を開き、その結果を確認します。
各予測が 正しいか、 正しくないか、 不確実かを確認します。
Microsoft では、このフィードバックを使用して分類モデルを絞り込みます。

ヒント

少なくとも 200 個のテスト項目をレビューして、最適な精度を得る必要があります。

手順 5: 分類子を発行する

分類子の精度に満足した場合:

[ 発行] を選択して使用します。
分類子は、次の目的で使用できるようになります。
- 自動ラベル付けポリシー
- アイテム保持ポリシー
- データ損失防止 (DLP)
- コミュニケーションコンプライアンス

分類子によって、トレーニングに基づいてコンテンツが自動的に識別され、分類されるようになりました。

カスタムトレーニング可能な分類子のベストプラクティス

多様なトレーニングサンプルを確保する: 分類カテゴリを正確に表すさまざまなコンテンツを含めます。
オーバーフィットを避ける: 類似のドキュメントをあまり使用しないでください。多様性により、分類子の柔軟性が向上します。
定期的にレビューと再トレーニング: コンテンツの変更に応じて、精度を維持するために分類子を更新します。
少なくとも 200 個のテスト項目を使用する: 最良の結果を得るには、少なくとも 50 個の陽性例と少なくとも 150 個の負の例を含む少なくとも 200 個の項目をテストサンプルセットに含めます。これにより、公開前の予測に対する信頼度が向上します。

フィードバック

このページはお役に立ちましたか?