共用方式為


建立完全符合敏感性資訊類型/規則套件的資料

適用於

您可以使用 Microsoft Purview 入口網站中的 [ 使用完全數據比對架構和 SIT 模式工具 ] (EDM) SIT (SIT) 建立確切的數據比對,也可以 手動建立規則套件 作為 XML 檔案。 您也可以使用一種方法來建立結構描述,然後使用另一種方法來編輯結構描述,以結合這兩種方法。

如果您不熟悉以 EDM 為基礎的 SITS 或其實作,您應該熟悉:

必要條件

執行下列文章中的步驟:

  1. 匯出來源資料,以取得以精確資料相符為基礎的敏感性資訊類型
  2. 建立完全資料比對型敏感性資訊類型的結構描述
  3. 雜湊並上傳精確資料比對敏感性資訊類型的敏感性資訊來源資料表
  • 無論您是要使用工具建立 EDM SIT ,還是透過 PowerShell 建立規則套件 XML 檔案,您都必須具有合規性系統管理員或全域管理員角色,才能透過 UI 建立、測試及部署自定義 SIT。 請參閱關於 Office 365 中的系統管理員角色

重要事項

Microsoft 建議您使用權限最少的角色。 這有助於改善貴組織的安全性。 全域管理員是高度許可權的角色,應該只用於無法使用較低許可權角色的案例。

  • 識別其中一個內建 SIT 要做為主要元素 SIT。
    • 如果沒有任何內建 SIT 符合您選取的資料行中的數據,您必須建立自訂 SIT 來符合。
    • 如果您為結構描述中的主要元素資料行選取了 [忽略分隔符號] 選項,請確定您建立的自訂 SIT 會比對包含或不含所選分隔符號的資料。
    • 如果您使用內建 SIT,請確定它會精確偵測您想要選取的字串,而且不會包含任何周圍的字元,或排除儲存在敏感性資訊數據表中的字串的任何有效部分。

請參閱 敏感性資訊類型實體定義建立自定義敏感性資訊類型

使用 Exact Data Match 架構和 SIT 模式工具

您可以使用此工具來建立 SIT 檔案,以協助簡化程式。

EDM SIT 是由一或多個模式所組成。 每個模式都描述結構描述中的欄位組合,這些欄位將用於識別文件或電子郵件中的敏感內容 (證據) 。

  1. 登入 Microsoft Purview 入口網站>資訊保護>分類器>EDM 分類器

    1. [新增 EDM 體驗 ] 切換設定為 [關閉]
  2. 選擇 [EDM 敏感性資訊類型 ] 和 [ 建立 EDM 敏感性資訊類型 ] 以開啟 [敏感性資訊類型] 組態工具。

  3. 選取 [ 選擇現有的 EDM 結構描述 ],然後挑選您在 [建立結構描述] 中建立的結構描述,以取得 完全比對型敏感性資訊類型。 選取 新增

  4. 選擇 [下一步],然後選擇 [建立模式]

  5. 挑選 [信賴等級 ] 和 [主要] 元素。 若要深入了解信賴等級,請參閱了解敏感性資訊類型

  6. 選擇 [主要元素的敏感性資訊類型] 建立其關聯,以定義文件中要與主要元素欄位中的所有值進行比較的文字。 請參閱 SIT 實體定義, 以深入瞭解可用的敏感性資訊類型。

    重要事項

    選取與您要尋找的內容格式緊密相符的 SIT。 選取符合不必要內容的 SIT,例如符合 所有 文字字串或 所有 數字的 SIT,可能會導致系統中負載過多,進而導致敏感性資訊未被偵測到。

  7. 選取您的 支援元素 和比對選項。

  8. 選擇 [完成]

  9. 如果您想要為 EDM SIT 建立其他模式,請選擇 [ 建立模式 ]。

  10. 選取 [下一步]

  11. 選擇您想要的 建議置信度角色接近度。 這將是整個 EDM SIT 的預設值。 (如需字元鄰近性的相關資訊,請參閱 瞭解鄰近性) 。 選取 [下一步]

  12. 選擇 [下一步] 並填入 [名稱][系統管理員的描述]

    當您建立結構描述檔案時,您的欄標題 (資料欄位) 必須遵守下列命名需求:
    - 必須以字母開頭,且必須至少包含三個英數字元。
    - 必須僅包含英數字元。

  13. 檢閱並選擇 [提交]

編輯或刪除 SIT 模式

  1. 登入 Microsoft Purview 入口網站>資訊保護>分類器>EDM 分類器

    1. [新增 EDM 體驗 ] 切換設定為 [關閉]
  2. 選擇 [EDM 敏感性資訊類型]

  3. 挑選您要編輯的 EDM SIT。

  4. 選擇 [編輯 EDM 敏感性資訊類型][從飛出視窗刪除 EDM 敏感性資訊類型]

  5. 請參閱 使用 完全資料比對架構和 SIT 模式工具 ,以取得編輯程式。

使用特定類型的資料

為了效能理由,使用可將不必要的比對數量減到最小的模式非常重要。 例如,您可以使用以正規表示式為基礎的 SIT。

\b\w*\b

這會比對任何文件或電子郵件中的每個單字或數字。 這會造成服務因符合項目而超載,並遺漏偵測到真正的符合項目。 使用更精確模式可避免這種情況。 以下是用於識別一些常見資料類型正確設定的一些建議。

Email addresses:Email addresses 很容易識別,但由於它們在敏感內容中非常常見,因此如果用作主要欄位,可能會對系統造成大量負載。 僅使用電子郵件加法器作為次要證據。 如果它們必須做為主要辨識項,當您定義自定義 SIT 時,請使用邏輯來排除電子郵件位址用作 From 電子郵件中 或 To 欄位的專案。 此外,使用邏輯從公司網域中排除電子郵件地址,以減少需要比對的不必要字串數量。

電話號碼:電話號碼可以有許多不同的格式,包括或不包括國家/地區前綴、區號和分隔符號。 若要減少誤報,同時將負載保持在最低限度,請僅將其用作次要元素,排除所有可能的分隔符號,例如括號和破折號,並且僅在敏感資料表中包含電話號碼中始終存在的部分。

人員名稱:如果使用以規則運算式為基礎的 SIT 作為此 EDM 類型的分類元素,請勿使用人員名稱作為主要元素,因為它們很難與一般字詞區分開來。

如果您必須使用難以識別特定模式 (的主要元素,例如專案代號) ,可能會產生大量要處理的相符專案,請確定您在 SIT 中包含關鍵詞,作為 EDM 類型的分類元素。 例如,如果使用也是一般單字的專案代碼名稱,您可以將單字 project 作為您用作 EDM 類型分類元素的 SIT 中專案名稱正則運算式型模式的必要額外辨識項。 或者,您可以考慮使用以一般字典為基礎的 SIT 作為 EDM SIT 的分類元素。

嘗試比對數字字串時,請指定允許的數字範圍,例如數字數目或起始數字 (如果已知)。 如果您需要比對相對彈性的數字範圍,您可以在基底 SIT 中使用關鍵字來減少相符項目的數量。 例如,如果嘗試比對由 7 到 11 位數字組成的帳戶號碼,請將 accountcustomeracct. 新增到 SIT 做為必要的額外辨識項。 這減少了不必要的匹配的可能性,這些匹配可能導致超出可處理的 EDM 匹配限制。

如果您需要用作主要元素的欄位遵循簡單的模式,可能會導致大量相符項目,而且您無法在 SIT 中新增關鍵詞的存在作為其他辨識項,您可以改為要求該模式的出現次數下限。 例如,您可以使用以下列方式定義的自定義 SIT 來偵測至少 29 個圍繞潛在五位數數字的其他五位數數字,以在敏感性內容中進行比對:

 <Entity id="98703510-18b3-43d4-961f-15317594beb7"
                  patternsProximity="300"
                  recommendedConfidence="85"
                  relaxProximity="false">
                  <Pattern confidenceLevel="85"
                              proximity="300">
                              <IdMatch idRef="MRN"/>
                              <Match idRef="30 AccountNrs"
                                    minCount="30"
                                    proximity="3000"
                                    uniqueResults="true"/>
                  </Pattern>
      </Entity>
      <Regex id="30 AccountNrs">\d{5}</Regex>

在某些情況下,您可能必須識別特定帳戶或記錄識別號碼 (其因歷史原因而遵循標準化模式)。 例如,Medical Record Numbers 可以由相同組織內許多不同的字母和數字排列組成。 雖然一開始可能難以識別某個模式,但更仔細的檢查往往可讓您縮小描述所有有效值的模式,而不會導致太多數量的無效相符項目。 例如,可能會偵測到「所有 MRN 的長度至少為七個字元、其中至少有兩個數字,且其中若有任何字母,則會從一開始」。 根據這類準則建立規則運算式,應該允許您在擷取所有需要的值時,將不必要的相符項目降至最低,而進一步的分析可能會透過定義描述不同格式的不同模式而提高精確度。

手動建立規則套件

此程式示範如何使用 Unicode 編碼) 以 XML 格式建立稱為規則套件 (的檔案,然後使用安全性 & 合規性 PowerShell Cmdlet 將它上傳至 Microsoft Purview。

注意事項

如果您對應的 SIT 可以偵測到多字確切辨識項,則手動建立的規則套件中定義的次要元素可以對應到 SIT。 例如,名稱 John Smith 將不會當作次要元素比對,因為如果該確切辨識項欄位未對應至可偵測該模式的 SIT,我們會將分別在內容中找到的 JohnSmith 與在其中一個欄位中上傳的 John Smith 一詞進行比較。

Microsoft 365 租用戶中的規則套件上限為 10 個。 由於規則套件可以包含任意數目的敏感性資訊類型,因此您可以避免每次想要使用此方法定義新的 SIT 時建立新的規則套件,而是匯出現有的規則套件,並在重新上傳之前將敏感性資訊類型新增至 XML。

  1. 以 XML 格式建立規則套件 (使用 Unicode 編碼方式),類似下列範例。 (您可以複製、修改及使用我們的範例)。

    當您設定規則套件時,請務必正確參照 .csv、.tsv 或垂直線 (|) 分隔的敏感性資訊來源資料表檔案和 edm.xml 結構描述檔案。 您可以複製、修改及使用我們的範例。 在此範例 xml 中,必須自訂下列欄位,才能建立您的 EDM 敏感性類型:

    • RulePack id 與 ExactMatch id:使用 New-GUID 產生 GUID。

    • 資料存放區:此欄位會指定要使用的 EDM 查閱資料存放區。 您要提供已設定之 EDM 結構描述的資料來源名稱。

    • idMatch:此欄位會指向 EDM 的主要元素。

    • 相符項目:指定要在精確查閱中使用的欄位。 您要在資料存放區的 EDM 結構描述中,提供可搜尋的欄位名稱。

    • 分類:此欄位會指定觸發 EDM 查閱的 SIT 相符專案。 您可以使用現有內建或自訂 SIT 的名稱或 GUID。

    注意事項

    請注意,符合所提供之 SIT 的任何字串都會經過雜湊,並與敏感性資訊來源資料表中的每個項目進行比較。 為避免針對分類元素選擇自訂 SIT 所造成的效能問題,請勿使用符合大量內容百分比的 SIT。 例如,符合「任何數字」或「任何五個字母的字」的 SIT。 您可以新增支援關鍵字,或在自訂分類 SIT 的定義中加入格式來區別它。

    • 相符項目:此欄位會指向 idMatch 鄰近位置的其他辨識項。

    • 相符項目:您要在資料存放區的 EDM 結構描述中,提供任何欄位名稱。

    • Resource idRef:此區段會在多個地區設定中,指定敏感性類型的名稱和描述。

      • 您要提供 ExactMatch ID 的 GUID。
      • 名稱 & 描述:根據需要進行自訂。
      <RulePackage xmlns="http://schemas.microsoft.com/office/2018/edm">
         <RulePack id="fd098e03-1796-41a5-8ab6-198c93c62b11">
           <Version build="0" major="2" minor="0" revision="0" />
           <Publisher id="..." />
           <Details defaultLangCode="en-us">
             <LocalizedDetails langcode="en-us">
               <PublisherName>IP DLP</PublisherName>
               <Name>Health Care EDM Rulepack</Name>
               <Description>This rule package contains the EDM sensitive type for health care sensitive types.</Description>
             </LocalizedDetails>
           </Details>
         </RulePack>
         <Rules>
           <ExactMatch id = "E1CC861E-3FE9-4A58-82DF-4BD259EAB371" patternsProximity = "300" dataStore ="PatientRecords" recommendedConfidence = "65" >
             <Pattern confidenceLevel="65">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
             </Pattern>
             <Pattern confidenceLevel="75">
               <idMatch matches = "SSN" classification = "U.S. Social Security Number (SSN)" />
               <Any minMatches ="3" maxMatches ="6">
                 <match matches="PatientID" />
                 <match matches="MRN"/>
                 <match matches="FirstName"/>
                 <match matches="LastName"/>
                 <match matches="Phone"/>
                 <match matches="DOB"/>
               </Any>
             </Pattern>
           </ExactMatch>
           <LocalizedStrings>
             <Resource idRef="E1CC861E-3FE9-4A58-82DF-4BD259EAB371">
               <Name default="true" langcode="en-us">Patient SSN Exact Match.</Name>
               <Description default="true" langcode="en-us">EDM Sensitive type for detecting Patient SSN.</Description>
             </Resource>
           </LocalizedStrings>
         </Rules>
      </RulePackage>
      
  2. 透過執行下列 PowerShell 命令來上傳規則套件:

    New-DlpSensitiveInformationTypeRulePackage -FileData ([System.IO.File]::ReadAllBytes('.\\rulepack.xml'))
    

注意事項

規則套件檔案的語法與其他敏感性資訊類型的語法相同。 如需規則套件檔案語法和其他設定選項的完整詳細數據,以及使用 PowerShell 修改和刪除敏感性資訊類型的指示,請 使用 PowerShell 建立自定義 SIT

下一步