建立自定義可訓練分類器

已完成

組織通常需要分類未遵循可預測模式的非結構化數據。 自定義可訓練分類器 可讓您訓練 Microsoft Purview,藉由提供 AI 型分析的範例檔來辨識唯一的內容。 一旦定型之後,分類器就可以用來自動標記內容、套用保留原則,以及支援通訊合規性。

可訓練分類器的運作方式

可訓練分類器會使用機器學習來根據意義和內容來偵測內容,而不是根據預先定義的模式。 不同於敏感性資訊類型 (依賴關鍵詞或模式型偵測的 SIT) ,可訓練分類器可藉由分析真實世界的範例來改善分類精確度。

建立分類器牽涉到使用範例內容來定型模型,包括相關和無關的檔。 此程式可協助模型區分屬於分類類別的數據,以及不屬於分類類別的數據。

需求

建立分類器之前,請確定您符合授權和許可權需求。

授權

Microsoft Purview 中的可訓練分類器需要下列其中一個授權組合:

  • Microsoft 365 E5
  • Microsoft 365 E5 合規性
  • 使用 Microsoft Purview 資訊保護和治理附加元件 Microsoft 365 E3

這些授權包括存取進階分類功能,例如可訓練分類器、精確數據比對、具名實體和內容分析。

權限

若要建立和管理可訓練分類器,用戶必須具有適當的角色許可權。 必要的許可權取決於分類器的使用位置。

案例 必要的角色許可權
保留標籤原則 記錄管理、保留管理
敏感度標籤原則 安全性系統管理員、合規性系統管理員、合規性數據管理員
通訊合規性政策 內部風險管理系統管理員、監督檢閱系統管理員

重要事項

根據預設,只有建立自定義分類器的用戶可以訓練和檢閱該分類器所做的預測。

建立可訓練分類器的步驟

建立分類器會遵循結構化程式,其中包含定型、測試和發佈。

步驟 1:收集定型數據

若要將分類器定型,您必須提供兩組使用者手動選取 的範例數據

  • ) (50-500 個專案的正面範例:屬於類別的檔。
  • 負數範例 (150–1500 個專案) :不屬於類別的檔。

提示

定型數據越多樣化且選取得越好,分類器就越精確。

步驟 2:在 SharePoint 中儲存數據

數和 負數 樣本儲存在個別 的 SharePoint 資料夾中。 請確定這些資料夾只包含個別的定型數據。

注意事項

如果建立新資料夾,請等候至少一小時進行索引編制,再於分類器設定中使用它們。

步驟 3:建立可訓練分類器

  1. 登入 Microsoft 入口 網站。
  2. 流覽至 資訊保護>Classifiers>可訓練分類器。
  3. 取 [建立可訓練分類器]
  4. 輸入 名稱描述
  5. 新增 SharePoint 資料夾 URL 以取得 正面範例 ,然後選取 [ 下一步]
  6. 新增 負數範例 的 SharePoint 資料夾 URL,然後選取 [ 下一步]
  7. 檢閱設定,然後選取 [建立可訓練分類器]

建立之後,分類器就會開始處理定型數據。 處理時間會有所不同,但通常會在 24小時內完成。

步驟 4:檢閱和測試分類器

分類器處理足夠的正面和負數樣本之後,您必須確認其預測。

  1. 開啟分類器並檢閱其結果。
  2. 確認每個預測是否 正確不正確不確定
  3. Microsoft使用此意見反應來精簡分類模型。

提示

至少應檢閱 200 個測試專案,以獲得最佳精確度。

步驟 5:發佈分類器

對分類器的精確度感到滿意時:

  1. 取 [發佈] 以供使用
  2. 分類器可供使用:
    • 自動標記原則
    • 保留原則
    • 資料外洩防護 (DLP)
    • 通訊合規性

分類器現在會根據您的定型自動識別和分類內容。

自定義可訓練分類器的最佳做法

  • 確定不同的訓練範例:包含精確表示分類類別的內容範圍。
  • 避免過度學習:不要使用太多類似的檔;多樣性可改善分類器彈性。
  • 定期檢閱並重新定型:當內容變更時,請更新分類器以維持精確度。
  • 使用至少 200 個測試專案:為了獲得最佳結果,測試範例集中至少有 200 個專案,其中包含至少 50 個正面範例和至少 150 個負面範例。 這可改善發佈前對預測的信賴度。