使用可訓練分類器來分類資料

4 分鐘

可訓練分類器會使用 AI 來識別和分類無法使用預先定義模式或關鍵詞分類的數據。不同 於敏感性資訊類型 (SIT) ，可偵測信用卡號碼或社會安全號碼等結構化數據，可訓練分類器會根據意義和內容來分析內容。這可讓它們可用於偵測非結構化數據，例如合約、財務報告或 HR 記錄。

為什麼要使用可訓練分類器？

許多組織都有不遵循可預測格式的敏感性內容。可訓練分類器可協助：

識別 SIT 無法偵測到的複雜數據。
減少對手動分類的依賴。
自動辨識應保護的內容，以改善合規性和安全性。

可訓練分類器的類型

Microsoft Purview 提供兩種類型的可訓練分類器：

預先定型的分類器：內建分類器，可用於一般內容類型，例如履歷、原始程式碼和冒犯性語言。 Microsoft定期更新這些分類器以改善精確度。
自定義可訓練分類器：組織可以使用真實世界的範例來訓練自己的分類器，以偵測其企業特有的數據。自定義分類器需要手動定型和精簡，以改善一段時間的精確度。

預先訓練的分類器

預先定型分類器可協助組織識別常見的非結構化數據類型，而不需要手動設定。其設計目的是要偵測難以使用傳統模式型方法分類的內容類別。

Microsoft提供特定內容類型的預先定型分類器，例如：

冒犯性語言：偵測不雅或不適當的內容。
履歷：識別 HR 數據管理的作業申請者履歷。
原始程式碼：協助追蹤和保護專屬或敏感性程序代碼。

預先定型分類器是透過使用 AI 和機器學習來建置和精簡 Microsoft。它們會定期更新，以改善精確度並適應不斷演進的內容類型。

使用可訓練分類器的位置

可訓練分類器與數個Microsoft Purview 解決方案整合，可讓組織有效地分類及控管數據：

自動套用標籤原則：根據分類器結果自動套用敏感度標籤。
保留原則：在處置過時數據時識別並保留重要內容。
數據外洩防護 (DLP) ：防止在組織外部共用敏感性資訊。
通訊合規性：監視訊息中的原則違規，包括不適當的內容。

可訓練分類器的限制

雖然可訓練分類器提供強大的 AI 驅動分類，但有一些限制：

它們需要初始 定型和檢閱 程式，以改善精確度。
它們 無法處理加密的內容。
它們 只會將支援位置中的內容分類 (例如 SharePoint、OneDrive 和 Exchange) 。

比較可訓練分類器和敏感性信息類型

功能	可訓練分類器	(SIT) 敏感性信息類型
偵測方法	AI 型分析	模式型 (例如 regex、關鍵詞)
最適合	非結構化數據	結構化的資料
需要訓練嗎？	是	沒有 (內建的 SIT)
使用自動標籤、DLP 和合規性？	是	是
偵測到加密的內容？	否	否

意見反應

此頁面對您有幫助嗎？