使用可訓練分類器來分類資料

已完成

可訓練分類器會使用 AI 來識別和分類無法使用預先定義模式或關鍵詞分類的數據。 不同 於敏感性資訊類型 (SIT) ,可偵測信用卡號碼或社會安全號碼等結構化數據,可訓練分類器會根據意義和內容來分析內容。 這可讓它們可用於偵測非結構化數據,例如合約、財務報告或 HR 記錄。

為什麼要使用可訓練分類器?

許多組織都有不遵循可預測格式的敏感性內容。 可訓練分類器可協助:

  • 識別 SIT 無法偵測到的複雜數據。
  • 減少對手動分類的依賴。
  • 自動辨識應保護的內容,以改善合規性和安全性。

可訓練分類器的類型

Microsoft Purview 提供兩種類型的可訓練分類器:

  • 預先定型的分類器:內建分類器,可用於一般內容類型,例如履歷、原始程式碼和冒犯性語言。 Microsoft定期更新這些分類器以改善精確度。
  • 自定義可訓練分類器:組織可以使用真實世界的範例來訓練自己的分類器,以偵測其企業特有的數據。 自定義分類器需要手動定型和精簡,以改善一段時間的精確度。

預先訓練的分類器

預先定型分類器可協助組織識別常見的非結構化數據類型,而不需要手動設定。 其設計目的是要偵測難以使用傳統模式型方法分類的內容類別。

Microsoft提供特定內容類型的預先定型分類器,例如:

  • 冒犯性語言:偵測不雅或不適當的內容。
  • 履歷:識別 HR 數據管理的作業申請者履歷。
  • 原始程式碼:協助追蹤和保護專屬或敏感性程序代碼。

預先定型分類器是透過使用 AI 和機器學習來建置和精簡 Microsoft。 它們會定期更新,以改善精確度並適應不斷演進的內容類型。

使用可訓練分類器的位置

可訓練分類器與數個Microsoft Purview 解決方案整合,可讓組織有效地分類及控管數據:

  • 自動套用標籤原則:根據分類器結果自動套用敏感度標籤。
  • 保留原則:在處置過時數據時識別並保留重要內容。
  • 數據外洩防護 (DLP) :防止在組織外部共用敏感性資訊。
  • 通訊合規性:監視訊息中的原則違規,包括不適當的內容。

可訓練分類器的限制

雖然可訓練分類器提供強大的 AI 驅動分類,但有一些限制:

  • 它們需要初始 定型和檢閱 程式,以改善精確度。
  • 它們 無法處理加密的內容
  • 它們 只會將支援位置中的內容分類 (例如 SharePoint、OneDrive 和 Exchange) 。

比較可訓練分類器和敏感性信息類型

功能 可訓練分類器 (SIT) 敏感性信息類型
偵測方法 AI 型分析 模式型 (例如 regex、關鍵詞)
最適合 非結構化數據 結構化的資料
需要訓練嗎? 沒有 (內建的 SIT)
使用自動標籤、DLP 和合規性?
偵測到加密的內容?