共用方式為


瞭解 Microsoft Purview 中的光學字元辨識

光學字元辨識 (OCR) 掃描可讓 Microsoft Purview 掃描影像以取得敏感性資訊。 OCR 掃描是選用功能,必須在租用戶層級啟用。 啟用後,您可以選擇要掃描影像的位置。 影像掃描適用於 Exchange、SharePoint、OneDrive、Teams、Windows 和 macOS 裝置。 設定 OCR 設定之後,您現有的資料外洩防護原則 (DLP) 、記錄管理,以及 IRM) (內部風險管理,都會套用至影像和文字型內容。 例如,假設您已設定 DLP 條件 內容包含敏感性資訊 ,並包含資料分類器,例如 SIT) (信用卡敏感性 資訊類型。 在此情況下,Microsoft Purview 會在所有所選位置掃描文字和影像中的信用卡號碼。

工作流程概覽

階段 需要的項目
如有需要,請建立 Azure 訂用帳戶 如果您的組織還沒有租用戶的 Azure 隨用隨付訂用帳戶,您的全域系統管理員必須先建立 Azure 帳戶
估算您的 OCR 掃描費用 使用 OCR 成本估算器 來估算特定使用案例的預期費用。
設定隨用隨付計費以啟用 OCR。 您的全域或 SharePoint 系統管理員必須遵循在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。
配置 OCR 掃描設定 您組織的合規性系統管理員會設定租用戶的 OCR 設定。

必要條件

若要使用 OCR 掃描,貴組織的全域系統管理員必須確認 Azure 隨用隨付訂用帳戶已就緒。 如果沒有,他們必須遵循建立初始 Azure 訂用帳戶中的指示進行設定

設定帳單

當您啟用 OCR 時,所有敏感性資訊類型和可定型分類器都可以偵測影像中的字元。

因為這是選擇性功能,所以您的全域系統管理員必須設定隨用隨付計費才能啟用 OCR。 請參閱在 Azure 中設定 Microsoft Syntex 計費中的指示,以新增 OCR 的訂用帳戶。

注意事項

在 Microsoft Syntex 中輸入計費資訊之後,您的合規性系統管理員就可以在 Microsoft Purview 中設定 OCR,而不需要任何額外的設定或授權需求。

您可以在 [在 Azure 中設定 Microsoft Syntex 計費] 頁面上找到 OCR 隨用隨付定價資訊。

估算您的 OCR 掃描費用

使用 OCR 的費用為每掃描 1,000 個項目 1.00 美元。 掃描的每張影像都算作一筆交易。 這表示 JPEG、JPG、PNG、BMP 或 TIFF (獨立影像) 計為單一交易。 這也意味著 PDF 文件中的 每一頁 都是單獨收費的。 例如,如果 PDF 檔案中有 10 頁,則 PDF 檔案的 OCR 掃描將計為 10 次單獨掃描。 如需使用 OCR 成本估算工具的相關資訊,請參閱 估算 OCR 成本

注意事項

為了降低您的 OCR 成本,我們有下列快取機制:小型影像,例如透過 Microsoft Exchange 以電子郵件傳送的標誌和簽章,只會在租用戶的所有使用者中掃描每個唯一影像一次,並在五天的移動期間內計費。 對於端點,快取會維護 30 天。 快取是每個端點裝置的本機,只會儲存映像和映像雜湊上識別的分類器,不會儲存客戶資料。 SharePoint 和 Onedrive 中沒有獨立影像的快取機制。 但是,在嵌入的檔案類型中,如果僅更新文字,則不會再次掃描影像。

檢查多個參數,包括圖像流哈希、圖像大小,以查看是否可以使用緩存。 如果任何參數不匹配,則圖像將再次進行 OCR處理。

此外,每個掃描的圖像都可以用於數據丟失防護、內部風險管理、自動標記和記錄管理方面的任意數量的策略中,無需額外付費。

重要事項

如需 Adobe 搭配 PDF 檔案使用Microsoft Purview 資料外洩防護 (DLP) 功能需求的相關資訊,請參閱 Adobe 的這篇文章:Acrobat 中的Microsoft Purview 資訊保護支援

配置您的 OCR 設定

  1. 登入 Microsoft Purview 入口網站
  2. 選取 [設定]
  3. 選取 光學字元辨識 (OCR) ,以輸入 OCR 組態設定。
  4. 選擇您要掃描影像的位置。
  5. 選取您要從 OCR 掃描中包含或排除的群組。
  6. 選取 [完成]

下表列出支援的位置和解決方案

權限

您用來建立和部署原則的帳戶必須是下列其中一個角色群組的成員

  • 合規性系統管理員
  • 合規性資料管理員
  • 全域管理員
  • 資訊保護
  • 資訊保護系統管理員

注意事項

  • 一般來說,OCR 設定在開啟後約一小時生效。

  • 如需 Microsoft Purview 通訊合規性中 OCR 功能的相關資訊,請參閱 建立和管理通訊合規性原則

支援的位置和解決方案

位置 支援的解決方案
Exchange 資料外洩防護

資訊保護: 自動套用標籤原則

記錄管理: 自動套用保留標籤原則1
SharePoint 網站 資料外洩防護

內部風險管理2

記錄管理: 自動套用保留標籤原則1
OneDrive 帳戶 資料外洩防護

記錄管理: 自動套用保留標籤原則1
Teams 聊天和頻道訊息 資料外洩防護

內部風險管理2
裝置 資料外洩防護

內部風險管理2

1 支援關鍵字和敏感資訊類型。
2 考慮影像中存在的敏感性資訊類型和可訓練的分類器,以進行風險評分。


支援的檔案類型

此功能支援掃描下列檔案類型的影像,並符合上述需求:

位置 支援的檔案類型
Exchange 掃描) (JPEG、JPG、PNG、BMP、TIFF 和 PDF。 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的嵌入圖像 (包含可搜索的文本和圖像) 每個文件掃描的嵌入圖像限制為 20 個。
SharePoint 和 OneDrive BMP、PNG、JPEG、JPG、JFIF、ARW、CR2、CRW、ERF、GIF、MEF、MRW、NEF、NRW、ORF、PEF、RAW、RW2、RW1、SR2、TIF、TIFF、HEIC、HEIF、ARI、BAY、CAP、CR3、DCS、DCR、DRF、EIP、FFF、IIQ、K25、KDC、MOS、PTX、PXN、RAF、RWL、SRF、SRW、X3F、DNG、PDF (掃描和混合包含可搜索的文本和圖像) DOCX 中的嵌入圖像, PPTX、XLSX
Teams、Windows 和 macOS 端點 JPEG、JPG、PNG、BMP、TIFF 和 PDF 僅 (圖像)

圖片需求

檔案大小: Exchange 和 Teams 的影像檔案不得大於 20 MB。 對於 SharePoint、OneDrive 和 Windows 以及 macOS 端點,影像檔案大小上限為 50 MB。

圖像分辨率: 影像解析度必須至少為 50 x 50 像素,且不得大於 16,000 x 16,000 像素。

重要事項

  • 僅掃描啟用 OCR 後上傳的影像。
  • OCR 只會擷取前兩百萬個字元的文字。
  • 根據預設,來自組織外部使用者的傳入電子郵件 () 、內部郵件 (組織) 使用者內共用的電子郵件,以及傳送給組織外部使用者的電子郵件 (電子郵件) 都會受到 OCR 掃描的約束。 若要從 OCR 掃描中排除傳入郵件,請將 OCR 設定從預設範圍的 [所有寄件者群組 ] 變更為 [特定寄件者群組] ,並指定要 OCR 掃描的內部群組。 若要將 OCR 掃描限制為僅傳送到組織外部的郵件,請選取 [進階設定] ([僅限 Exchange) ] 下的選項。 選取此核取方塊後,傳入郵件或任何內部通訊都不會被 OCR 處理。 如需變更組態的相關資訊,請參閱 設定 OCR 設定
  • Exchange 中的影像不支援資料外洩防護原則提示。
  • 如果您在端點資料外洩防護設定中 排除路徑 ,OCR 將不會掃描這些資料夾中的影像。
  • 當 Windows 和 macOS 裝置開啟 OCR 時,裝置會開始將訊息傳送到雲端進行掃描。 預設頻寬限制為 每台裝置每天 1,024 MB 的資料。 一旦達到此每日限制,OCR 就會停止掃描影像。 如果您想繼續掃描影像,可以增加頻寬限制。
  • 對於端點裝置,需要確保任何網路設定都不會阻礙 OCR,並且應存在允許 blob.core.windows.net 端點的萬用字元
  • 對於 Exchange,支援 DOCX、PPTX、XLSX、RAR、TAR、ZIP、7z 和混合 PDF 中的內嵌影像 (包含可搜尋的文字和影像) 每個檔案掃描的內嵌影像限制為 20 個

支援的語言

OCR 掃描支援 150 多種語言

摘要

另請參閱