共用方式為


Microsoft Purview 資料對應中的分類最佳做法

Microsoft Purview 資料對應中的資料分類是將唯一的邏輯標籤或類別指派給資料資產,以分類資料資產的方式。 分類是根據資料的商業環境定義而定。 例如,您可以依 護照號碼駕駛執照號碼信用卡號碼SWIFT 代碼人員姓名等來分類資產。 深入瞭解 資料對應中的資料分類

本文說明在對資料資產進行分類時要採用的最佳做法,讓您的掃描更有效率,而且您可以獲得有關整個資料資產的最完整資訊。

掃描規則集

透過使用 掃描規則集,您可以設定應套用至資料來源特定掃描的相關分類。 選取相關的系統分類,或選取自訂分類(如果您已為正在掃描的資料建立自訂分類)。

例如,在下圖中,只有特定的選取系統和自訂分類會套用至您要掃描的資料來源 (例如財務資料) 。

顯示所選分類規則的螢幕擷取畫面。

註釋管理

在決定要套用哪些分類時,建議您:

  • 移至 資料對映>註釋管理>分類 窗格。

  • 檢閱要套用至您正在掃描的資料資產的可用系統分類。 系統分類的正式名稱具有 MICROSOFT 前置詞。

    螢幕擷取畫面,顯示 [分類] 窗格上的系統分類清單。

  • 如有必要,請建立自訂分類。 選取 自訂 索引標籤,然後選取 + 新增。 瞭解如何 建立自訂分類

  • 為您在上一個步驟中建立的自訂分類建立分類規則。 移至資料對應>註釋管理>分類規則。 在這裡,您可以為在上一個步驟中建立的自訂分類名稱建立分類規則。

    顯示「分類規則」窗格的螢幕擷取畫面。

自訂分類

只有在可用的系統分類不符合您的需求時,才建立自訂分類。

對於自訂分類的名稱,最好使用命名空間慣例 (例如公司<名稱>。<業務單位>。<自訂分類名稱>) 。

例如,對於虛構公司 Contoso 的自訂EMPLOYEE_ID分類,您的自訂分類名稱會是 CONTOSO.HR。EMPLOYEE_ID,易記名稱會儲存在系統中作為 HR。員工編號。

顯示EMPLOYEE_ID自訂分類的螢幕擷取畫面。

當您建立和設定自訂分類的分類規則時,請執行下列動作:

  • 選取要為其建立分類規則的適當分類名稱。

  • Microsoft Purview 資料對應支援下列兩種方法來建立自訂分類規則:

    • 如果您可以使用正規表示式模式一致地表示資料元素,或者可以使用資料檔產生模式,請使用 Regular Expression (regex) 方法。 請確定樣本資料反映母體。

    • 只有在字典檔案中的值清單代表要分類的資料的所有可能值,且預期符合給定的資料集 (考慮未來值以及) 時,才使用 Dictionary 方法。

      螢幕擷取畫面顯示用於建立自訂分類規則的「規則運算式」和「字典」選項。

  • 使用 正則表達式 方法:

    • 設定要分類的資料的正則表達式模式。 確保正則表達式模式足夠通用,以滿足正在分類的資料。

    • Microsoft Purview 也提供產生建議的正則運算式模式的功能。 上傳範例資料檔案之後,請選取其中一個建議的模式,然後選取 [ 新增至模式 ] 以使用建議的資料和資料行模式。 您可以修改建議的模式,也可以輸入自己的模式,而不需要上傳檔案。

    • 您也可以設定資料行名稱型樣,讓要分類的資料行,以將誤報降到最低。

    • 設定符合資料模式之資料可接受的 [最小比對臨界值 ] 參數,以套用分類。 臨界值可以從 1% 到 100%。 我們建議至少將值設為 60% 作為臨界值,以避免誤報。 不過,您可以視需要針對特定分類案例進行設定。 例如,如果您想要偵測並套用資料中任何值的分類(如果它符合型樣),則臨界值可能低至 1%。

      螢幕擷取畫面,顯示用於建立自訂分類規則的正則運算式方法。

    • 如果將多個資料型樣新增至分類規則,則會自動停用設定最小比對規則的選項。

    • 使用 「測試分類規則 」並使用範例資料進行測試,以驗證分類規則是否如預期般運作。 例如,請確定在範例資料 (中,在 .csv 檔案中至少存在三個直欄) 包括要套用分類的直欄。 如果測試成功,您應該會在資料行上看到分類標籤,如下圖所示:

      測試分類成功時顯示分類的螢幕擷取畫面。

  • 使用 字典 方法:

    • 您可以使用 Dictionary 方法來適合列舉資料,或如果可能值的字典清單可用。

    • 此方法支援 .csv 和 .tsv 文件,檔案大小限制為 30 MB (MB) 。

自訂分類原型

「threshold」參數在正則運算式中的運作方式

  • 請考慮下圖中的範例來源資料。 有五個直欄,自訂分類規則應該套用至資料型樣 N{Digit}{Digit}{Digit}AN 的直欄 Sample_col1Sample_col2Sample_col3

    顯示範例來源資料的螢幕擷取畫面。

  • 自訂分類名為 NDDDAN。

  • 資料模式) 的正規表示式 (分類規則是 ^N[0-9]{3}AN$。

    顯示自訂分類規則的螢幕擷取畫面。

  • 臨界值會針對「^N[0-9]{3}AN$」模式計算,如下圖所示:

    顯示自訂分類規則臨界值的螢幕擷取畫面。

    如果您的臨界值為 55%,則只會分類 Sample_col1Sample_col2 欄。 Sample_col3 不會被分類,因為它不符合 55% 的閾值標準。

    顯示高臨界值準則結果的螢幕擷取畫面。

如何使用資料和資料行模式

  • 對於指定的範例資料,其中 B 欄和 C 欄都有類似的資料型樣,您可以根據資料型樣 “^P[0-9]{3}[A-Z]{2}$” 在 B 欄上進行分類。

    顯示範例資料的螢幕擷取畫面。

  • 將資料行模式與資料模式一起使用,以確保只有 產品 ID 資料行會分類。

    顯示分類規則的螢幕擷取畫面。

    注意事項

    資料行型樣會驗證為具有資料型樣的 AND 條件。

  • 使用 「測試分類規則 」並使用範例資料進行測試,以驗證分類規則是否如預期般運作。

    顯示資料行模式的螢幕擷取畫面。

如何使用多個欄模式

如果要針對相同分類規則分類多個欄型樣,請使用管道 (|) 以字元分隔的資料行名稱。 例如,針對 資料行 Product IDProduct_IDProductID 等,請撰寫資料行模式,如下圖所示:

顯示多個資料行模式的螢幕擷取畫面。

如需詳細資訊,請參閱 regex alternation 建構

分類考量

以下是定義分類時要記住的一些注意事項:

  • 若要決定在掃描之前需要將哪些分類套用至資產,請考量如何使用分類。 不必要的分類標籤可能會對資料取用者造成雜訊,甚至誤導。 您可以使用分類來:

    • 描述正在掃描的資料資產或結構描述中存在的資料本質。 換句話說,分類應該可讓客戶在搜尋目錄時,從分類標籤中識別資料資產或結構描述的內容。
    • 設定優先順序並制定計劃,以實現組織的安全性和合規性需求。
    • 描述資料準備程式中的階段 (原始區域、登陸區域等) ,並將分類指派給特定資產,以標記程式中的階段。
  • 您可以在掃描規則中包含相關分類,以自動在資產或資料行層級指派分類,也可以在將中繼資料內嵌至 Microsoft Purview 資料對應之後手動指派分類。

  • 如需自動指派,請參閱 Microsoft Purview 資料對應支援的資料存放區

  • 在Microsoft Purview 資料對應中掃描資料來源之前,請務必瞭解資料並為其設定適當的掃描規則集,例如, (選取相關的系統分類、自訂分類或兩者) 的組合,因為這可能會影響掃描效能。 如需詳細資訊,請參閱 Microsoft Purview 資料對應中支援的分類

  • Microsoft Purview 掃描器會針對深度掃描套用資料取樣規則 (受限於系統和自訂分類的分類) 。 取樣規則是以資料來源的類型為基礎。 如需詳細資訊,請參閱 Microsoft Purview 中支援的資料來源和檔案類型中的「檔案內取樣」一節。

    注意事項

    相異資料臨界值:這是掃描器在資料行上執行資料型樣之前,需要在資料行中找到的不同資料值總數。 相異資料臨界值與模式比對無關,但它是模式比對的先決條件。 系統分類規則要求每欄中至少有 8 個不同的值,才能對其進行分類。 系統需要此值,以確保資料行包含足夠的資料,讓掃描器能夠準確分類。 例如,包含多個資料列且全部包含值 1 的資料行將不會被分類。 包含一個具有值的資料列,而其餘資料列具有 Null 值的資料行也不會分類。 如果您指定多個型樣,則此值會套用至每個型樣。

  • 取樣規則也適用於資源集。 如需詳細資訊,請參閱 Microsoft Purview 資料對應中支援的資料來源和檔案類型中的「資源集檔案取樣」一節。

  • 自訂分類無法使用自訂分類規則套用至文件類型資產。 這類類型的分類只能手動套用。

  • 自訂分類不包含在任何預設掃描規則中。 因此,如果預期自動指派自訂分類,您必須部署並使用包含自訂分類的自訂掃描規則,才能執行掃描。

  • 如果您從 Microsoft Purview 治理入口網站手動套用分類,這類分類會保留在後續的掃描中。

  • 如果先前偵測到任何分類,後續掃描不會從資產中移除任何分類,即使分類規則不適用也一樣。

  • 針對 加密的來源 資料資產,Microsoft Purview 只會挑選檔案名稱、完整名稱、結構化檔案類型的架構詳細數據,以及資料庫資料表。 若要讓分類正常運作,請在執行掃描之前解密加密資料。

後續步驟