Microsoft Purview 資料對應中的資料分類是將唯一的邏輯標籤或類別指派給資料資產,以分類資料資產的方式。 分類是根據資料的商業環境定義而定。 例如,您可以依 護照號碼、 駕駛執照號碼、 信用卡號碼、 SWIFT 代碼、 人員姓名等來分類資產。 深入瞭解 資料對應中的資料分類。
本文說明在對資料資產進行分類時要採用的最佳做法,讓您的掃描更有效率,而且您可以獲得有關整個資料資產的最完整資訊。
掃描規則集
透過使用 掃描規則集,您可以設定應套用至資料來源特定掃描的相關分類。 選取相關的系統分類,或選取自訂分類(如果您已為正在掃描的資料建立自訂分類)。
例如,在下圖中,只有特定的選取系統和自訂分類會套用至您要掃描的資料來源 (例如財務資料) 。
註釋管理
在決定要套用哪些分類時,建議您:
移至 資料對映>註釋管理>分類 窗格。
檢閱要套用至您正在掃描的資料資產的可用系統分類。 系統分類的正式名稱具有 MICROSOFT 前置詞。
如有必要,請建立自訂分類。 選取 自訂 索引標籤,然後選取 + 新增。 瞭解如何 建立自訂分類。
為您在上一個步驟中建立的自訂分類建立分類規則。 移至資料對應>註釋管理>分類規則。 在這裡,您可以為在上一個步驟中建立的自訂分類名稱建立分類規則。
自訂分類
只有在可用的系統分類不符合您的需求時,才建立自訂分類。
對於自訂分類的名稱,最好使用命名空間慣例 (例如公司<名稱>。<業務單位>。<自訂分類名稱>) 。
例如,對於虛構公司 Contoso 的自訂EMPLOYEE_ID分類,您的自訂分類名稱會是 CONTOSO.HR。EMPLOYEE_ID,易記名稱會儲存在系統中作為 HR。員工編號。
當您建立和設定自訂分類的分類規則時,請執行下列動作:
選取要為其建立分類規則的適當分類名稱。
Microsoft Purview 資料對應支援下列兩種方法來建立自訂分類規則:
使用 正則表達式 方法:
設定要分類的資料的正則表達式模式。 確保正則表達式模式足夠通用,以滿足正在分類的資料。
Microsoft Purview 也提供產生建議的正則運算式模式的功能。 上傳範例資料檔案之後,請選取其中一個建議的模式,然後選取 [ 新增至模式 ] 以使用建議的資料和資料行模式。 您可以修改建議的模式,也可以輸入自己的模式,而不需要上傳檔案。
您也可以設定資料行名稱型樣,讓要分類的資料行,以將誤報降到最低。
設定符合資料模式之資料可接受的 [最小比對臨界值 ] 參數,以套用分類。 臨界值可以從 1% 到 100%。 我們建議至少將值設為 60% 作為臨界值,以避免誤報。 不過,您可以視需要針對特定分類案例進行設定。 例如,如果您想要偵測並套用資料中任何值的分類(如果它符合型樣),則臨界值可能低至 1%。
如果將多個資料型樣新增至分類規則,則會自動停用設定最小比對規則的選項。
使用 「測試分類規則 」並使用範例資料進行測試,以驗證分類規則是否如預期般運作。 例如,請確定在範例資料 (中,在 .csv 檔案中至少存在三個直欄) 包括要套用分類的直欄。 如果測試成功,您應該會在資料行上看到分類標籤,如下圖所示:
使用 字典 方法:
您可以使用 Dictionary 方法來適合列舉資料,或如果可能值的字典清單可用。
此方法支援 .csv 和 .tsv 文件,檔案大小限制為 30 MB (MB) 。
自訂分類原型
「threshold」參數在正則運算式中的運作方式
請考慮下圖中的範例來源資料。 有五個直欄,自訂分類規則應該套用至資料型樣 N{Digit}{Digit}{Digit}AN 的直欄 Sample_col1、Sample_col2 及 Sample_col3。
自訂分類名為 NDDDAN。
資料模式) 的正規表示式 (分類規則是 ^N[0-9]{3}AN$。
臨界值會針對「^N[0-9]{3}AN$」模式計算,如下圖所示:
如果您的臨界值為 55%,則只會分類 Sample_col1 和 Sample_col2 欄。 Sample_col3 不會被分類,因為它不符合 55% 的閾值標準。
如何使用資料和資料行模式
對於指定的範例資料,其中 B 欄和 C 欄都有類似的資料型樣,您可以根據資料型樣 “^P[0-9]{3}[A-Z]{2}$” 在 B 欄上進行分類。
將資料行模式與資料模式一起使用,以確保只有 產品 ID 資料行會分類。
注意事項
資料行型樣會驗證為具有資料型樣的 AND 條件。
使用 「測試分類規則 」並使用範例資料進行測試,以驗證分類規則是否如預期般運作。
如何使用多個欄模式
如果要針對相同分類規則分類多個欄型樣,請使用管道 (|) 以字元分隔的資料行名稱。 例如,針對 資料行 Product ID、 Product_ID、 ProductID 等,請撰寫資料行模式,如下圖所示:
如需詳細資訊,請參閱 regex alternation 建構。
分類考量
以下是定義分類時要記住的一些注意事項:
若要決定在掃描之前需要將哪些分類套用至資產,請考量如何使用分類。 不必要的分類標籤可能會對資料取用者造成雜訊,甚至誤導。 您可以使用分類來:
- 描述正在掃描的資料資產或結構描述中存在的資料本質。 換句話說,分類應該可讓客戶在搜尋目錄時,從分類標籤中識別資料資產或結構描述的內容。
- 設定優先順序並制定計劃,以實現組織的安全性和合規性需求。
- 描述資料準備程式中的階段 (原始區域、登陸區域等) ,並將分類指派給特定資產,以標記程式中的階段。
您可以在掃描規則中包含相關分類,以自動在資產或資料行層級指派分類,也可以在將中繼資料內嵌至 Microsoft Purview 資料對應之後手動指派分類。
如需自動指派,請參閱 Microsoft Purview 資料對應支援的資料存放區。
在Microsoft Purview 資料對應中掃描資料來源之前,請務必瞭解資料並為其設定適當的掃描規則集,例如, (選取相關的系統分類、自訂分類或兩者) 的組合,因為這可能會影響掃描效能。 如需詳細資訊,請參閱 Microsoft Purview 資料對應中支援的分類。
Microsoft Purview 掃描器會針對深度掃描套用資料取樣規則 (受限於系統和自訂分類的分類) 。 取樣規則是以資料來源的類型為基礎。 如需詳細資訊,請參閱 Microsoft Purview 中支援的資料來源和檔案類型中的「檔案內取樣」一節。
注意事項
相異資料臨界值:這是掃描器在資料行上執行資料型樣之前,需要在資料行中找到的不同資料值總數。 相異資料臨界值與模式比對無關,但它是模式比對的先決條件。 系統分類規則要求每欄中至少有 8 個不同的值,才能對其進行分類。 系統需要此值,以確保資料行包含足夠的資料,讓掃描器能夠準確分類。 例如,包含多個資料列且全部包含值 1 的資料行將不會被分類。 包含一個具有值的資料列,而其餘資料列具有 Null 值的資料行也不會分類。 如果您指定多個型樣,則此值會套用至每個型樣。
取樣規則也適用於資源集。 如需詳細資訊,請參閱 Microsoft Purview 資料對應中支援的資料來源和檔案類型中的「資源集檔案取樣」一節。
自訂分類無法使用自訂分類規則套用至文件類型資產。 這類類型的分類只能手動套用。
自訂分類不包含在任何預設掃描規則中。 因此,如果預期自動指派自訂分類,您必須部署並使用包含自訂分類的自訂掃描規則,才能執行掃描。
如果您從 Microsoft Purview 治理入口網站手動套用分類,這類分類會保留在後續的掃描中。
如果先前偵測到任何分類,後續掃描不會從資產中移除任何分類,即使分類規則不適用也一樣。
針對 加密的來源 資料資產,Microsoft Purview 只會挑選檔案名稱、完整名稱、結構化檔案類型的架構詳細數據,以及資料庫資料表。 若要讓分類正常運作,請在執行掃描之前解密加密資料。