共用方式為


匯出來源資料,以取得以精確資料相符為基礎的敏感性資訊類型

適用於

敏感資料表格是一個文字檔,其中包含值列,您可以根據這些值來比較文件中的內容以識別敏感資料。 這些值可能是個人識別資訊、產品記錄,或您想要在內容中偵測並保護的文字形式的其他敏感資料。

以其中一種支援的格式) 匯出表格 (中的資料後,您可以建立EDM結構描述。

定義您的 EDM 敏感性類型

當您定義 EDM 敏感性類型時,最關鍵的決策之一是定義哪些欄位是主要欄位。 主要欄位必須遵照可偵測的模式,並定義為 EDM 結構描述中的可搜尋欄位 (欄)。 次要欄位不需要遵循任何模式,因為它們會與主要欄位相符的所有文字進行比較。

使用這些規則可協助您決定應該使用哪些欄位做為主要欄位:

  • 如果您必須根據符合敏感性資料表中欄位的單一值來偵測敏感性資料,而不論周圍是否有任何其他敏感性資料,則必須將該資料行定義為 EDM SIT 的主要元素。
  • 如果必須在內容中偵測敏感資料表中不同欄位的多個組合,請識別大多數此類組合通用的資料行,並將它們指定為主要元素。 將其他欄位的組合指定為次要元素。
  • 如果您要用作主要元素的資料行不遵循可偵測的模式,例如 any text string 或遵循大量文件或電子郵件中某處存在的可偵測模式,請選擇其他結構更好的資料行作為主要元素。

例如,如果您有資料行 full namedate of birthaccount numberSocial Security Number,即使名字和姓氏是您想要偵測之不同資料組合通用的資料行,這類字串也不會遵循易於識別的模式,而且可能難以定義為敏感性資訊類型。 造成這種情況的原因有很多:

  • 某些名稱可能不會以大寫字元開頭
  • 有些可能由兩個、三個或更多單詞/字符串組成
  • 有些可能包含數字或其他非字母字元。 出生日期可以更容易地識別,但由於每封電子郵件和大多數文檔都至少包含一個日期,因此字段 DateOfBirth 也不是一個好的候選者。 相反,請使用社會安全號碼和帳號等字段,這些字段是主要字段的良好候選者。

範例檔案範本

為了更輕鬆地選擇主要欄位,我們整理了一些範例檔案範本,用於:

這些是逗號分隔的值 (.csv) 檔案,這些檔案具有這些垂直產業中最常用的值作為欄標題,以及列中Microsoft產生的綜合值。 使用欄標題來協助您決定主要欄位。 最佳作法是只匯出所需的來源資料。 欄標題會建議最相關的欄位。

若要瞭解如何使用範例檔案範本,請參閱如何使用 範例檔案範本

.csv.tsv管道分隔 格式儲存敏感資料

  1. 找出您要使用的敏感性資訊。 將資料匯出至 Microsoft Excel 等應用程式,並將檔案儲存為文字檔。 檔案可以儲存為下列任何格式: .csv (逗號分隔值) 、 .tsv (定位點分隔值) ,或 (|) (管道分隔) 格式。 建議使用 .tsv 格式,以處理資料值可能包含逗點 (例如街道地址) 的情況。 資料檔案可能包含:

    • 最多 1 億列敏感性資料
    • 每個資料來源最多 32 個資料行 (欄位)
    • 最多 10 欄 (欄位) 標示為可搜尋
  2. 以 .csv 或 .tsv 檔案格式將敏感性資料結構化,使得第一列包含用於以 EDM 為基礎的分類的欄位名稱。 在您的檔案中,您可能會有如 "ssn"、"birthdate"、"firstname" 等欄位名稱。 欄標題名稱不能包含空格或底線。 例如,在本文我們所使用的 .csv 檔案範例稱為 PatientRecords.csv,而其資料行包含 PatientIDMRNLastNameFirstNameSSN 等等。

  3. 注意敏感資料欄位的格式;特別是,內容中可能包含逗號的欄位。 例如,如果選取 .csv 格式,則包含值「Seattle, WA」的街道地址會剖解析為兩個不同的欄位。 若要避免這種情況,請使用 .tsv 格式,或在敏感性資料表格中以雙引號括住包含值的逗號。 如果包含值的逗號也包含空格,您需要建立符合對應格式的自訂 SIT。 例如,可偵測包含逗號和空格的多字字串的 SIT。

下一步

請參閱