使用可訓練分類器來分類資料
可訓練分類器會使用 AI 來識別和分類無法使用預先定義模式或關鍵詞分類的數據。 不同 於敏感性資訊類型 (SIT) ,可偵測信用卡號碼或社會安全號碼等結構化數據,可訓練分類器會根據意義和內容來分析內容。 這可讓它們可用於偵測非結構化數據,例如合約、財務報告或 HR 記錄。
為什麼要使用可訓練分類器?
許多組織都有不遵循可預測格式的敏感性內容。 可訓練分類器可協助:
- 識別 SIT 無法偵測到的複雜數據。
- 減少對手動分類的依賴。
- 自動辨識應保護的內容,以改善合規性和安全性。
可訓練分類器的類型
Microsoft Purview 提供兩種類型的可訓練分類器:
- 預先定型的分類器:內建分類器,可用於一般內容類型,例如履歷、原始程式碼和冒犯性語言。 Microsoft定期更新這些分類器以改善精確度。
- 自定義可訓練分類器:組織可以使用真實世界的範例來訓練自己的分類器,以偵測其企業特有的數據。 自定義分類器需要手動定型和精簡,以改善一段時間的精確度。
預先訓練的分類器
預先定型分類器可協助組織識別常見的非結構化數據類型,而不需要手動設定。 其設計目的是要偵測難以使用傳統模式型方法分類的內容類別。
Microsoft提供特定內容類型的預先定型分類器,例如:
- 冒犯性語言:偵測不雅或不適當的內容。
- 履歷:識別 HR 數據管理的作業申請者履歷。
- 原始程式碼:協助追蹤和保護專屬或敏感性程序代碼。
預先定型分類器是透過使用 AI 和機器學習來建置和精簡 Microsoft。 它們會定期更新,以改善精確度並適應不斷演進的內容類型。
使用可訓練分類器的位置
可訓練分類器與數個Microsoft Purview 解決方案整合,可讓組織有效地分類及控管數據:
- 自動套用標籤原則:根據分類器結果自動套用敏感度標籤。
- 保留原則:在處置過時數據時識別並保留重要內容。
- 數據外洩防護 (DLP) :防止在組織外部共用敏感性資訊。
- 通訊合規性:監視訊息中的原則違規,包括不適當的內容。
可訓練分類器的限制
雖然可訓練分類器提供強大的 AI 驅動分類,但有一些限制:
- 它們需要初始 定型和檢閱 程式,以改善精確度。
- 它們 無法處理加密的內容。
- 它們 只會將支援位置中的內容分類 (例如 SharePoint、OneDrive 和 Exchange) 。
比較可訓練分類器和敏感性信息類型
| 功能 | 可訓練分類器 | (SIT) 敏感性信息類型 |
|---|---|---|
| 偵測方法 | AI 型分析 | 模式型 (例如 regex、關鍵詞) |
| 最適合 | 非結構化數據 | 結構化的資料 |
| 需要訓練嗎? | 是 | 沒有 (內建的 SIT) |
| 使用自動標籤、DLP 和合規性? | 是 | 是 |
| 偵測到加密的內容? | 否 | 否 |