共用方式為


具名實體辨識的透明度資訊,包括個人識別資訊 (PII)

這很重要

非英文翻譯僅供方便使用。 請參閱 EN-US 本文件的版本以取得最終版本。

什麼是透明度注意事項?

這很重要

本文假設你熟悉 Foundry Tools 中 Azure 語言的指引與最佳實務。 欲了解更多資訊,請參閱 語言透明度說明

AI 系統不僅包括技術,還包括將使用該技術的人員、將受其影響的人員,以及部署所在的環境。 建立適合其預期用途的系統,需要了解技術的運作方式、其功能和限制,以及如何達到最佳效能。 Microsoft 的透明度資訊旨在協助您了解 AI 技術的運作方式、系統擁有者可能會影響系統效能和行為的選擇,以及考慮整個系統的重要性,包括技術、人員和環境。 您可以在開發或部署自己的系統時使用透明度資訊,或將該資訊與將使用或受到系統影響的人員共用。

Microsoft 的透明性報告是 Microsoft 實施 AI 原則的更大努力的一部分。 若要深入瞭解,請參閱Microsoft的負責任 AI 原則。

具名實體辨識和個人標識資訊簡介 (PII)

語言支援 命名實體識別 ,以識別並分類文本中的資訊。 其中包括產品和事件等一般實體,以及個人識別資訊 (PII) 實體。 可以辨識 各種個人實體 ,例如名稱、組織、位址、電話號碼、 財務帳戶號碼 或代碼, 以及政府和國家或地區特定標識符 。 這些個人實體的子集是受保護的健康資訊 (PHI)。 如果您在要求中指定 domain=phi,您只會取得傳回的 PHI 實體。 您可以在 這裡的表格中找到 PII 和 PHI 實體類別的完整清單。 此外,PII 辨識支援在回應中指定您想要的特定實體類別,並在回應中隱藏 PII 實體。 PII 實體將會在回應的 redactedText 屬性中被星號取代。

閱讀範例 NER 要求和範例回應 ,以瞭解如何將文字傳送至服務,以及預期傳回的內容。

範例使用案例

客戶可能想要辨識各種具名實體類別的兩個主要原因:

  • 增強搜尋功能 - 客戶可以根據文件中偵測到的實體來建置知識圖表,以增強檔搜尋。
  • 增強或自動化商務程式 - 例如,在檢閱保險理賠時,可以醒目提示已辨識的實體,例如名稱和位置,以利檢閱。 抑或透過客戶的名稱和公司從電子郵件自動產生支援票證。

客戶可能會想要特別識別各種類別的 PII 實體,原因有數個:

  • 套用敏感度標籤 - 例如,根據 PII 服務的結果,公用敏感度標籤可能會套用至未偵測到 PII 實體的文件。 對於辨識出美國位址和電話號碼的文件,則可能會套用機密標籤。 高度機密標籤可能會用於辨識出銀行路由編號的文件。
  • 從檔修訂某些類別的個人資訊以保護隱私權 - 例如,如果客戶聯繫人記錄可供第一線支援代表存取,公司可能會想要從客戶歷程記錄中修訂不必要的客戶個人資訊,以保留客戶的隱私權。
  • 為了減少無意識偏見而修訂個人資訊 - 例如,在公司的履歷審查過程中,他們可能想要封鎖名稱、位址和電話號碼,以協助減少無意識性別或其他偏見。
  • 取代機器學習來源資料中的個人資訊以減少不公平性 – 例如,如果您想要移除在定型機器學習模型時可能洩露性別的姓名,您可以使用此服務來識別它們,並利用模型定型的通用預留位置來予以取代。

選擇使用案例時的考量

請勿使用

  • 僅限 PII - 請勿用於自動修訂或資訊分類案例 – 任何在未成功修訂個人資訊情況下可能會使人員面臨身份竊取和身體或心理傷害風險的案例,都應納入謹慎的人為監督。
  • NER 和 PII - 請勿針對未取得同意目的使用個人資訊的情況使用 - 例如,公司有過去求職者的履歷。 申請人在提交履歷時未同意與促銷活動聯繫。 根據此案例,NER 和 PII 服務不應用於識別聯繫人資訊,以便邀請過去的申請人參加貿易展。
  • NER 和 PII - 客戶不得在未經個人資訊當事者同意的情況下,使用此服務從公開提供的內容中蒐集個人資訊。
  • NER 和 PII - 請勿用於將文字中的個人資訊替換成意圖誤導他人之文字的案例。

法律與法規考量:組織在使用任何 Foundry 工具與解決方案時,需評估潛在的具體法律與監管義務,這些可能不適用於所有產業或情境。 此外,Foundry 工具或解決方案並非設計用於適用服務條款及相關行為準則中禁止的用途。

特性和限制

視您的案例、輸入數據和您想要擷取的實體而定,您可能會遇到不同層級的效能。 以下章節旨在幫助你理解使用語言、NER及PII服務時關於效能的關鍵概念。

了解及測量 NER 的效能

由於可能發生偽陽性和偽陰性錯誤,因此重要的是要瞭解這兩種類型的錯誤可能如何影響整體系統。 使用具名實體辨識 (NER),當實體不存在於文字中,但由系統辨識並傳回時,就會發生誤判。 誤判是當實體出現在文字中,但系統無法辨識並傳回時。

瞭解 PII 的效能

例如,在編輯或審查的情境中,偽陰性可能會導致個人資訊外洩。 針對修訂案例,請考慮人為檢閱的流程,以避免此類錯誤。 對於敏感度標籤案例,偽陽性和偽陰性都可能導致文件分類錯誤。 對於標示為機密的文件,在發生誤報時,讀者群可能會被不必要地限制。 發生偽陰性並套用了公用標籤時,可能會洩露個人識別資訊 (PII)。

您可以調整系統用來調整系統的信賴度分數閾值。 如果識別 PII 的所有潛在實例更為重要,您可以使用較低的閾值。 這表示您可能會得到更多的假陽性(將非 PII 數據誤認為 PII 實體),但假陰性較少(PII 實體未被辨識為 PII)。 如果您的系統需要更精確地辨識 PII 真實數據,您可以採用較高的閾值。 臨界值在不同的 PII 實體類別中可能沒有一致的行為。 因此,請務必使用將在生產中處理的真實資料來測試系統。

增強效能的系統限制和最佳做法

  • 請確定您已了解系統可辨識之 NERPII 的所有實體類別。 視您的案例而定,您的數據可能包含其他資訊,這些資訊可能被視為個人,但服務目前支援的類別並未涵蓋。

  • 內容對於系統正確辨識所有實體類別很重要,因為人類通常能夠辨識實體。 例如,如果沒有內容,十位數的數位就只是數位。 然而,鑒於類似「您可以在我的辦公室電話號碼上聯繫我2345678901」等內容,系統與人類都可以將十位數號碼辨識為電話號碼。 將文字傳送至系統時,請一律包含內容,以取得最佳效能。

  • 特別是人名需要語言背景。 盡可能傳送夠多的內容,以取得更佳的人名偵測。

  • 針對交談資料,請考慮在交談中傳送多個回合,以確保所需的內容與實際實體包含在一起的可能性較高。
    在下列交談中,如果您一次傳送單一資料列,則護照號碼將不會有任何相關內容,且無法辨識歐盟護照號碼 PII 類別。

    嗨,我今天怎麼能幫你?
    我想更新我的護照
    當然,您目前的護照號碼為何?
    它是123456789,謝謝。

    不過,如果您傳送整個交談,則會辨識該交談,因為內容會包含在內。

  • 有時可以辨識相同實體的多個實體類別。 如果我們採用上述範例:

    嗨,我今天怎麼能幫你?
    我想更新我的護照
    當然,您目前的護照號碼為何?
    它是123456789,謝謝。

    數個不同的國家/地區護照號碼的格式相同,因此可以辨識數個不同的特定實體類別。 在某些情況下,使用最高信賴分數可能不足以選擇正確的實體類別。 如果您的案例取決於要辨識的特定實體類別,您可能需要透過人工檢閱或其他驗證程式代碼來釐清系統中其他地方的結果。 對真實生活資料的徹底測試,可協助您識別是否可能會看到針對您案例辨識的多個實體類別。

  • 並非所有實體類別在所有語言中都支援 NER 和 PII。 請務必查看您要偵測之語言中實體的實體類型 (部分機器翻譯) 一文。

  • 支援許多國際 PII 實體。 根據預設,傳回的實體類別是符合以 API 呼叫傳送的語言代碼。 如果您預期來自指定之地區設定以外的實體,則必須使用 piiCategories 參數來指定它們。 深入瞭解如何在API 參考中指定您的回應將包含什麼。 深入了解具名實體類型文件 (部分機器翻譯) 中每個地區設定支援的類別。

  • 在 PII 修訂案例中,如果您使用包含選擇性參數 piiCategories的 API 版本,請務必考慮文字中可能出現的所有 PII 類別。 如果您只修改特定實體類別或特定地區設定的默認實體類別,則會外洩文字中意外出現的其他 PII 實體類別。 例如,如果您已傳送 EN-US 地區設定,但未指定任何選用的 PII 類別,且您的文字中有德國駕駛執照號碼,則會外洩。 若要避免這種情況,您必須在 參數中 piiCategories 指定德文駕駛執照號碼類別。 此外,如果您已針對指定的地區設定使用 piiCategories 參數指定一個或多個類別,請注意,這些 是唯一 會被刪除的類別。 例如,如果您已發送 EN-US 地區設定,並指定美國社會安全號碼(SSN)為要修訂的 PII 類別,那麼其他任何 EN-US 類別,如美國駕駛執照號碼或美國護照號碼,如果它們出現在輸入文字中,就會洩漏。

  • 由於 PII 服務會傳回符合呼叫中語言代碼的 PII 類別,因此如果您不確定該語言或地區設定,請考慮確認輸入文字所使用的語言。 您可以使用 語言偵測 功能來執行這項作。

  • PII 服務只會接受文字作為輸入。 如果您要以其他格式來修訂文件的資訊,請務必仔細測試您的修訂程序代碼,以確保未意外洩漏已識別的實體。

另請參閱