光學字元辨識 (OCR) 掃描可讓 Microsoft Purview 掃描影像以取得敏感性資訊。 OCR 掃描是選用功能,必須在租用戶層級啟用。 啟用後,您可以選擇要掃描影像的位置。 影像掃描適用於 Exchange、SharePoint、OneDrive、Teams、Windows 和 macOS 裝置。 設定 OCR 設定之後,您現有的資料外洩防護原則 (DLP) 、記錄管理,以及 IRM) (內部風險管理,都會套用至影像和文字型內容。 例如,假設您已設定 DLP 條件 內容包含敏感性資訊 ,並包含資料分類器,例如 SIT) (信用卡敏感性 資訊類型。 在此情況下,Microsoft Purview 會在所有所選位置掃描文字和影像中的信用卡號碼。
工作流程概覽
| 階段 | 需要的項目 |
|---|---|
| 如有需要,請建立 Azure 訂用帳戶 | 如果您的組織還沒有租用戶的 Azure 隨用隨付訂用帳戶,您的全域系統管理員必須先建立 Azure 帳戶。 |
| 估算您的 OCR 掃描費用 | 使用 OCR 成本估算器 來估算特定使用案例的預期費用。 |
| 設定隨用隨付計費以啟用 OCR。 | 您的全域或 SharePoint 系統管理員必須遵循在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。 |
| 配置 OCR 掃描設定 | 您組織的合規性系統管理員會設定租用戶的 OCR 設定。 |
必要條件
若要使用 OCR 掃描,貴組織的全域系統管理員必須確認 Azure 隨用隨付訂用帳戶已就緒。 如果沒有,他們必須遵循建立初始 Azure 訂用帳戶中的指示進行設定
設定帳單
當您啟用 OCR 時,所有敏感性資訊類型和可定型分類器都可以偵測影像中的字元。
因為這是選擇性功能,所以您的全域系統管理員必須設定隨用隨付計費才能啟用 OCR。 請參閱在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。
注意事項
在 Microsoft Syntex 中輸入計費資訊之後,您的合規性系統管理員就可以在 Microsoft Purview 中設定 OCR,而不需要任何額外的設定或授權需求。
您可以在 [在 Azure 中設定 Microsoft Syntex 計費] 頁面上找到 OCR 隨用隨付定價資訊。
估算您的 OCR 掃描費用
使用 OCR 的費用為每掃描 1,000 個項目 1.00 美元。 掃描的每張影像都算作一筆交易。 這表示 JPEG、JPG、PNG、BMP 或 TIFF (獨立影像) 計為單一交易。 這也意味著 PDF 文件中的 每一頁 都是單獨收費的。 例如,如果 PDF 檔案中有 10 頁,則 PDF 檔案的 OCR 掃描將計為 10 次單獨掃描。 如需使用 OCR 成本估算工具的相關資訊,請參閱 估算 OCR 成本。
注意事項
為了降低您的 OCR 成本,我們有下列快取機制:小型影像,例如透過 Microsoft Exchange 以電子郵件傳送的標誌和簽章,只會在租用戶的所有使用者中掃描每個唯一影像一次,並在五天的移動期間內計費。 對於端點,快取會維護 30 天。 快取是每個端點裝置的本機,只會儲存映像和映像雜湊上識別的分類器,不會儲存客戶資料。 SharePoint 和 Onedrive 中沒有獨立影像的快取機制。 但是,在嵌入的檔案類型中,如果僅更新文字,則不會再次掃描影像。
檢查多個參數,包括圖像流哈希、圖像大小,以查看是否可以使用緩存。 如果任何參數不匹配,則圖像將再次進行 OCR處理。
此外,每個掃描的圖像都可以用於數據丟失防護、內部風險管理、自動標記和記錄管理方面的任意數量的策略中,無需額外付費。
重要事項
如需 Adobe 搭配 PDF 檔案使用Microsoft Purview 資料外洩防護 (DLP) 功能需求的相關資訊,請參閱 Adobe 的這篇文章:Acrobat 中的Microsoft Purview 資訊保護支援。
配置您的 OCR 設定
- 登入 Microsoft Purview 入口網站。
- 選取 [設定]。
- 選取 光學字元辨識 (OCR) ,以輸入 OCR 組態設定。
- 選擇您要掃描影像的位置。
- 選取您要從 OCR 掃描中包含或排除的群組。
- 選取 [完成]
下表列出支援的位置和解決方案。
權限
您用來建立和部署原則的帳戶必須是下列其中一個角色群組的成員
- 合規性系統管理員
- 合規性資料管理員
- 全域管理員
- 資訊保護
- 資訊保護系統管理員
注意事項
一般來說,OCR 設定在開啟後約一小時生效。
如需 Microsoft Purview 通訊合規性中 OCR 功能的相關資訊,請參閱 建立和管理通訊合規性原則。
支援的位置和解決方案
| 位置 | 支援的解決方案 |
|---|---|
| Exchange | 資料外洩防護 資訊保護: 自動套用標籤原則 記錄管理: 自動套用保留標籤原則1 |
| SharePoint 網站 | 資料外洩防護 內部風險管理2 記錄管理: 自動套用保留標籤原則1 |
| OneDrive 帳戶 | 資料外洩防護 記錄管理: 自動套用保留標籤原則1 |
| Teams 聊天和頻道訊息 | 資料外洩防護 內部風險管理2 |
| 裝置 | 資料外洩防護 內部風險管理2 |
1 支援關鍵字和敏感資訊類型。
2 考慮影像中存在的敏感性資訊類型和可訓練的分類器,以進行風險評分。
支援的檔案類型
此功能支援掃描下列檔案類型的影像,並符合上述需求:
| 位置 | 支援的檔案類型 |
|---|---|
| Exchange | 掃描) (JPEG、JPG、PNG、BMP、TIFF 和 PDF。 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的嵌入圖像 (包含可搜索的文本和圖像) 每個文件掃描的嵌入圖像限制為 20 個。 |
| SharePoint 和 OneDrive | BMP、PNG、JPEG、JPG、JFIF、ARW、CR2、CRW、ERF、GIF、MEF、MRW、NEF、NRW、ORF、PEF、RAW、RW2、RW1、SR2、TIF、TIFF、HEIC、HEIF、ARI、BAY、CAP、CR3、DCS、DCR、DRF、EIP、FFF、IIQ、K25、KDC、MOS、PTX、PXN、RAF、RWL、SRF、SRW、X3F、DNG、PDF (掃描和混合包含可搜索的文本和圖像) DOCX 中的嵌入圖像, PPTX、XLSX |
| Teams、Windows 和 macOS 端點 | JPEG、JPG、PNG、BMP、TIFF 和 PDF 僅 (圖像) |
圖片需求
檔案大小: Exchange 和 Teams 的影像檔案不得大於 20 MB。 對於 SharePoint、OneDrive 和 Windows 以及 macOS 端點,影像檔案大小上限為 50 MB。
圖像分辨率: 影像解析度必須至少為 50 x 50 像素,且不得大於 16,000 x 16,000 像素。
重要事項
- 僅掃描啟用 OCR 後上傳的影像。
- OCR 只會擷取前兩百萬個字元的文字。
- 根據預設,來自組織外部使用者的傳入電子郵件 () 、內部郵件 (組織) 使用者內共用的電子郵件,以及傳送給組織外部使用者的電子郵件 (電子郵件) 都會受到 OCR 掃描的約束。 若要從 OCR 掃描中排除傳入郵件,請將 OCR 設定從預設範圍的 [所有寄件者群組 ] 變更為 [特定寄件者群組] ,並指定要 OCR 掃描的內部群組。 若要將 OCR 掃描限制為僅傳送到組織外部的郵件,請選取 [進階設定] ([僅限 Exchange) ] 下的選項。 選取此核取方塊後,傳入郵件或任何內部通訊都不會被 OCR 處理。 如需變更組態的相關資訊,請參閱 設定 OCR 設定。
- Exchange 中的影像不支援資料外洩防護原則提示。
- 如果您在端點資料外洩防護設定中 排除路徑 ,OCR 將不會掃描這些資料夾中的影像。
- 當 Windows 和 macOS 裝置開啟 OCR 時,裝置會開始將訊息傳送到雲端進行掃描。 預設頻寬限制為 每台裝置每天 1,024 MB 的資料。 一旦達到此每日限制,OCR 就會停止掃描影像。 如果您想繼續掃描影像,可以增加頻寬限制。
- 對於端點裝置,需要確保任何網路設定都不會阻礙 OCR,並且應存在允許 blob.core.windows.net 端點的萬用字元
- 對於 Exchange,支援 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的內嵌影像 (包含可搜尋的文字和影像) 每個檔案掃描的內嵌影像限制為 20 個
支援的語言
OCR 掃描支援 150 多種語言。
摘要
- 若要使用 OCR,您必須設定 Microsoft Syntex 隨用隨付計費。 (您不需要自行設定Microsoft Syntex )
- 設定 OCR 會在租用戶層級進行,因此設定 OCR 之後,整個 Microsoft Purview 堆疊都可以使用它。
- 您不需要為 OCR 建立個別的資料分類器。 設定 OCR 之後,現有的敏感性資訊類型、精確資料比對型敏感性資訊類型、可訓練的分類器和指紋 SIT 會掃描影像以及檔和電子郵件。