Microsoft Purview 可以識別、監視及保護您的敏感性專案。 識別敏感性項目有時需要尋找關鍵字,特別是在識別一般內容 (例如醫療保健相關通訊),或是不適當或偏激的言語。 雖然您可以在 建立自定義敏感性資訊類型時建立關鍵字清單,但關鍵字清單的大小有限,如果您在 PowerShell 中建立它們,則需要修改 XML 才能建立或編輯它們。
相較之下,關鍵字字典提供更簡單的關鍵字管理,而且規模更大,在字典中支援高達 1 MB 的字詞 (壓縮後) 。 此外,關鍵字字典可以支援任何語言。 壓縮後的租用戶限制也是 1 MB。 1 MB 的壓縮後限制表示租用戶中組合的所有字典可以有接近一百萬個字元。
關鍵字字典限制
您可以建立關鍵字字典,但每個租戶的壓縮後) (合併大小限制為 1MB。 若要瞭解租使用者中有多少關鍵字字典,請遵循 連線到安全性 & 合規性 PowerShell 中的程式來連線到租使用者,然後執行此 PowerShell 腳本:
$rawFile = $env:TEMP + "\rule.xml"
$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)
if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}
Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}
Remove-Item $rawFile
建立關鍵字字典的基本步驟
最常見的是,您會在檔案中編譯字典的關鍵字,例如 .csv 或 .txt 清單。 您可以在建立或編輯期間將字典檔案上傳至 SIT,或透過 PowerShell Cmdlet 匯入它們。 或者,您可以從現有或現有的 關鍵字字典開始。 最後,您可以在“ 添加關鍵字詞典 ”對話框中手動輸入關鍵字。 建立關鍵字字典時,請遵循相同的核心步驟:
使用 Microsoft Purview 入口網站建立關鍵字字典
使用下列步驟來建立或匯入自訂字典的關鍵字:
登入 Microsoft Purview 入口網站資訊保護>分類器敏感>性資訊類型。
選取 [+ 建立敏感性資訊類型],然後輸入敏感性資訊類型的 [名稱] 和 [描述]。 選擇 [下一步]。
在 [定義此敏感資訊類型的模式 ] 頁面上,選擇 [+ 建立模式]。
在 [新增型樣] 視窗中,選取 [信賴水準]。
選擇 Add a Primary element (新增主要元素 ),然後選取 Keyword dictionary (關鍵字字典)。
在 [ 新增關鍵字字典 ] 飛出視窗上,您可以:
- 上傳 TXT 或 CSV 格式的字典檔案。
- 從現有字典中選擇。
- 或透過手動輸入關鍵字並命名來建立新字典。
仍在 [新增型樣] 視窗中,針對 [字元鄰近度],指定必須偵測任何支援元素的字元數 () 。 主要元素和支援元素彼此越接近,偵測到的內容就越有可能成為您要尋找的內容。
新增您想要使用的 支援元素 ,以提高偵測您要尋找的內容的準確性。
新增任何 其他檢查 ,然後選擇 Create (建立)。
選擇 [下一步 ] 以繼續建立敏感性資訊類型。 完成後,選擇 [完成]。
使用 PowerShell 從檔案建立關鍵字字典
通常,當您需要建立大型字典時,您可以使用檔案中的關鍵字或從其他來源匯出的清單。 在下列範例中,您會建立關鍵字字典,其中包含要在外部電子郵件中篩選的疾病清單。 首先,您需要 連線到安全性 & 合規性 PowerShell。
將關鍵字複製到文字檔案中,並確保每個關鍵字都位於單獨的行中。
使用 Unicode 編碼儲存文字檔。 在記事本中,導覽至 >另存為>編碼>Unicode。
執行下列 Cmdlet 將檔案讀成變數:
$fileData = [System.IO.File]::ReadAllBytes('<filename>')執行下列 Cmdlet 來建立字典:
New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
使用自訂敏感資訊類型和 DLP 原則中的關鍵字字典
關鍵字字典可做為自訂敏感性資訊類型的符合需求一部分,或做為敏感性資訊類型本身。 兩者都需要您建立自訂敏感性資訊類型。 按照連結文章中的指示建立敏感性資訊類型。 取得 XML 之後,您需要 XML 中的 GUID 識別碼,才能使用字典。
<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
<Pattern confidenceLevel="75">
<IdMatch idRef=". . ."/>
</Pattern>
</Entity>
若要取得字典的身分識別,請執行下列命令,然後複製 Identity 屬性值:
Get-DlpKeywordDictionary -Name "Diseases"
此命令的輸出看起來像這樣:
RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255
Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f
Name : Diseases
Description : Names of diseases and injuries from ICD-10-CM lexicon
KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo
proteinemia, abiotrophy, ablatio, ablation, ablepharia,abocclusion, abolition, aborter, abortion, abortus, aboulomania,
abrami's disease, abramo
IsValid : True
ObjectState : Unchanged
將 身分識別 值貼到自訂敏感性資訊類型的 XML 中,作為 idRef。 接下來,上傳 XML 檔案。 您的字典現在會出現在敏感性資訊類型清單中,而且您可以直接在原則中使用它,指定需要比對的關鍵字數目。
<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
<Pattern confidenceLevel="85">
<IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
</Pattern>
</Entity>
<LocalizedStrings>
<Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
<Name default="true" langcode="en-us">Diseases</Name>
<Description default="true" langcode="en-us">Detects various diseases</Description>
</Resource>
</LocalizedStrings>
注意事項
Microsoft 365 資訊保護支援下列雙位元組字元集語言:
- 中文 (簡體)
- 中文 (繁體)
- 韓文
- 日文
這項支援適用於敏感性資訊類型。 如需詳細資訊,請參閱資訊保護支援雙位元組字元集的版本資訊 (預覽版)。
提示
若要偵測包含中文/日文字元和單一位元組字元的模式,或偵測包含中文/日文和英文的模式,請定義關鍵字或 RegEx 的兩個變體。
- 例如,若要偵測關鍵字 ,例如「机密的document」,請使用關鍵字的兩個變體;一個在日文和英文文字之間具有空格,另一個在日文和英文文字之間沒有空格。 因此,要新增到 SIT 中的關鍵字應該是「机密的 document」和「机密的document」。 同樣地,若要偵測片語「東京オリンピック2020」,應該使用兩個變體;「東京オリンピック 2020」和「東京オリンピック2020」。
除了中文/日文/雙位元組字元外,如果關鍵字/短語清單還包含非中文/日文單字,例如 (獨立的英文單字) ,您應該建立兩個字典/關鍵字清單。 一個用於包含中文/日文/雙位元組字元的關鍵字,另一個用於英文單字。
- 例如,如果您想建立包含三個短語「高度機密」、「機密性が高い」和「機密的檔案」的關鍵字字典/列表,您應該建立兩個關鍵字清單。
- Highly confidential
- 機密性が高い、机密的document 和机密的 document
使用雙位元組連字號或雙位元組字元來建立 RegEx 時,請務必逸出這兩個字元,就像一個字元會逸出 RegEx 中的連字號或空格一樣。 以下是範例正則運算式以供參考:
(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}
我們建議您在關鍵字清單中使用字串比對,而不是文字比對。