次の方法で共有


個人を特定できる情報 (PII) を含む名前付きエンティティ認識の透明性に関するメモ

Von Bedeutung

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントの EN-US バージョンを参照してください。

透明度に関するメモとは

Von Bedeutung

この記事では、Foundry Tools の Azure Language のガイドラインとベスト プラクティスについて理解していることを前提としています。 詳細については、「言語の 透明性に関するメモ」を参照してください。

AI システムには、テクノロジだけでなく、それを使う人、それによって影響を受ける人、それが展開される環境も含まれています。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoft の透明性に関するメモは、当社の AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢、テクノロジ、ユーザー、環境を含むシステム全体について考えることの重要性を理解するのに役立つものです。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft の責任ある AI 原則を参照してください。

名前付きエンティティ認識と個人を特定できる情報 (PII) の概要

言語では、テキスト内の情報を識別して分類するための 名前付きエンティティ認識 がサポートされています。 これには、製品とイベント、個人を特定できる情報 (PII) エンティティなどの一般的なエンティティが含まれます。 名前、組織、住所、電話番号、金融口座番号、コード、政府および国または地域固有の識別番号など、さまざまな個人エンティティを認識できます。 これらの個人情報のサブセットは、保護された健康情報 (PHI) です。 要求で domain=phi を指定した場合、返される PHI エンティティのみが取得されます。 PII および PHI エンティティ カテゴリの完全な一覧については、次の表を参照 してください。 さらに、PII 認識では、応答で必要な特定のエンティティ カテゴリを指定し、応答で PII エンティティを編集する機能がサポートされています。 PII エンティティは、応答の redactedText プロパティのアスタリスクに置き換えられます。

NER 要求の例と応答例を読み 、サービスにテキストを送信する方法と、返される内容を確認します。

利用事例の例

名前付きエンティティのさまざまなカテゴリを認識する必要がある主な理由は次の 2 つです。

  • 検索機能の強化 - ドキュメントで検出されたエンティティに基づいてナレッジ グラフを作成し、ドキュメント検索を強化できます。
  • ビジネス プロセスを強化または自動化 する - たとえば、保険金請求を確認するときに、名前や場所などの認識されたエンティティを強調表示してレビューを容易にすることができます。 または、メールから顧客の名前と会社を使用してサポート チケットを自動的に生成することもできます。

お客様は、PII エンティティのさまざまなカテゴリを特にいくつかの理由で認識する必要がある場合があります。

  • 秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。 米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。 銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
  • プライバシーを保護するために、ドキュメントから一部のカテゴリの個人情報を編集 する - たとえば、顧客の連絡先レコードに第一線のサポート担当者がアクセスできる場合、会社は顧客のプライバシーを維持するために、顧客履歴から不要な顧客の個人情報を編集することができます。
  • 無意識の偏りを減らすために個人情報を編集 する - たとえば、会社の履歴書のレビュー プロセス中に、無意識の性別やその他の偏りを減らすために、名前、住所、電話番号をブロックすることができます。
  • 機械学習のソース データ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデル トレーニング用の汎用プレースホルダーに置き換えることができます。

ユース ケースを選択するときの考慮事項

使用しない

  • PII のみ - 自動編集や情報分類のシナリオには使用しないでください。個人情報を編集できないと、個人情報の盗難や物理的または精神的損害のリスクにさらされる可能性があるシナリオには、慎重な人間の監視が含まれている必要があります。
  • NER および PII - 同意を得られなかった目的で個人情報を使用するシナリオには使用しないでください。たとえば、会社が過去の採用応募者から履歴書を取得した場合などです。 申請者は、履歴書の提出時にプロモーションイベントの連絡を受ける同意を与えませんでした。 このシナリオに基づいて、過去の申請者をトレード ショーに招待する目的で、NER サービスと PII サービスの両方を使用して連絡先情報を特定しないでください。
  • NERおよびPII - お客様は、個人情報の主体である個人の同意なしに、一般に利用可能なコンテンツから個人情報を収集するために、このサービスを使用することは禁止されています。
  • NER と PII - テキスト内の個人情報を、誤解を与える意図に置き換えるシナリオには使用しないでください。

法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。 さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

特性と制限

シナリオ、入力データ、抽出するエンティティによっては、さまざまなレベルのパフォーマンスが発生する可能性があります。 次のセクションは、言語 NER および PII サービスの使用に適用されるパフォーマンスに関する主要な概念を理解するのに役立ちます。

NER のパフォーマンスを理解して測定する

誤検知エラーと偽陰性エラーの両方が発生する可能性があるため、両方の種類のエラーがシステム全体にどのように影響するかを理解することが重要です。 名前付きエンティティ認識 (NER) では、エンティティがテキストに存在せず、システムによって認識され、返されたときに誤検知が発生します。 偽陰性とは、エンティティがテキスト内に存在しているにもかかわらず、システムによって認識されず返されない場合のことです。

PII のパフォーマンスについて

たとえば、秘匿処理のシナリオでは、偽陰性が個人情報の漏えいにつながる可能性があります。 やり直しのシナリオでは、この種類のエラーを考慮するヒューマン レビューのプロセスを検討してください。 秘密度ラベルのシナリオでは、誤検知と偽陰性の両方がドキュメントの誤分類につながる可能性があります。 ユーザーは、誤検知が発生した場合に機密としてラベル付けされたドキュメントに対して不必要に制限される場合があります。 偽陰性が発生し、パブリック ラベルが適用された場合、PII が漏洩する可能性があります。

システムを調整するためにシステムが使用する信頼度スコアのしきい値を調整できます。 PII のすべての潜在的なインスタンスを特定することがより重要な場合は、より低いしきい値を使用できます。 つまり、より多くの誤検知 (PII エンティティとして認識される PII 以外のデータ) が発生する可能性がありますが、誤検知 (PII エンティティは PII として認識されない) が少なくなります。 システムが真の PII データのみを認識することがより重要な場合は、より高いしきい値を使用できます。 しきい値は、PII エンティティの個々のカテゴリ間で一貫した動作を持たない可能性があります。 そのため、運用環境で処理される実際のデータを使用してシステムをテストすることが重要です。

パフォーマンスを向上するためのシステムの制限事項とベスト プラクティス

  • システムで認識できる NER および PII のすべてのエンティティ カテゴリを理解していることを確認します。 シナリオによっては、個人と見なされる可能性のある他の情報がデータに含まれる場合がありますが、サービスが現在サポートしているカテゴリの対象ではありません。

  • コンテキストは、すべてのエンティティカテゴリがシステムによって正しく認識されるために重要です。これは、人間がエンティティを認識する際にもよくあることです。 たとえば、コンテキストがない場合、10 桁の数値は単なる数値です。 ただし、"You can reach me at my office phone number 2345678901" のようなコンテキストでは、システムと人間の両方が 10 桁の番号を電話番号として認識できます。 可能な限り最高のパフォーマンスを得るために、システムにテキストを送信するときは常にコンテキストを含めます。

  • 特に、ユーザー名には言語コンテキストが必要です。 ユーザー名の検出を向上するために、できるだけ多くのコンテキストを送信します。

  • 会話データの場合は、必要なコンテキストが実際のエンティティに含まれる可能性が高くなるように、会話で複数のターンを送信することを検討してください。
    次の会話では、一度に 1 行ずつ送信した場合、パスポート番号にはコンテキストが関連付けされず、EU Passport Number PII カテゴリは認識されません。

    こんにちは、私は今日あなたを助けることができますか?
    パスポートを更新したい
    確かに、現在のパスポート番号は何ですか?
    その123456789、ありがとう。

    ただし、会話全体を送信すると、コンテキストが含まれているため認識されます。

  • 同じエンティティに対して複数のエンティティ カテゴリを認識できる場合があります。 前の例を見ると、次のようになります。

    こんにちは、私は今日あなたを助けることができますか?
    パスポートを更新したい
    確かに、現在のパスポート番号は何ですか?
    その123456789、ありがとう。

    一部の国ではパスポート番号の形式が同じであるため、いくつかの異なる特定のエンティティ カテゴリが認識される場合があります。 場合によっては、最も高い信頼度スコアを使用するだけでは、適切なエンティティ クラスを選択できない場合があります。 シナリオが認識される特定のエンティティ カテゴリに依存している場合は、人間によるレビューまたは追加の検証コードを使用して、システムの他の場所で結果を明確にする必要がある場合があります。 実際のデータに対する徹底的なテストは、シナリオで認識される複数のエンティティ カテゴリが表示される可能性があるかどうかを特定するのに役立ちます。

  • すべてのエンティティ カテゴリが、NER と PII の両方のすべての言語でサポートされているわけではありません。 確認したい言語のエンティティについては、必ずエンティティの種類に関する記事を確認してください。

  • 多くの国際 PII エンティティがサポートされています。 既定では、返されるエンティティ カテゴリは、API 呼び出しで送信された言語コードと一致するカテゴリです。 指定されたロケール以外のロケールからのエンティティが必要な場合は、 piiCategories パラメーターを使用してエンティティを指定する必要があります。 API リファレンスに応答に含める内容を指定する方法の詳細について説明します。 各ロケールでサポートされるカテゴリの詳細については、 名前付きエンティティ型のドキュメントを参照してください

  • PII の編集シナリオでは、省略可能なパラメーター piiCategoriesを含む API のバージョンを使用している場合は、テキストに存在する可能性があるすべての PII カテゴリを考慮することが重要です。 特定のロケールの特定のエンティティ カテゴリまたは既定のエンティティ カテゴリのみを編集している場合は、テキストに予期せず表示される他の PII エンティティ カテゴリが漏洩します。 たとえば、EN-US ロケールを送信し、オプションの PII カテゴリを指定せず、ドイツ語の運転免許証番号がテキストに存在する場合、漏洩します。 これを回避するには、 piiCategories パラメーターにドイツの運転免許証番号カテゴリを指定する必要があります。 さらに、指定したロケールに対して piiCategories パラメーターを使用して 1 つ以上のカテゴリを指定した場合は、編集される 唯一 のカテゴリであることに注意してください。 たとえば、EN-US ロケールを送信し、米国社会保障番号 (SSN) を編集用の PII カテゴリとして指定した場合、入力テキストに表示される米国の運転免許証番号や米国パスポート番号などのその他の EN-US カテゴリは漏洩します。

  • PII サービスは呼び出しの言語コードに一致する PII カテゴリを返します。言語またはロケールがわからない場合は、入力テキストの言語を確認することを検討してください。 言語 検出 機能を使用してこれを行うことができます。

  • PII サービスはテキストのみを入力として受け取ります。 ドキュメントの情報を他の形式で編集する場合は、識別されたエンティティが誤って漏洩しないように、編集コードを慎重にテストしてください。

こちらも参照ください