SharePoint 中的光學字元辨識 (OCR) 服務,讓您能從圖片和文件中擷取印刷或手寫文字。 圖片範例包括海報、繪畫和產品標籤。 文件範例包括文章、報告、表格和發票。
文字通常以文字、文字行、段落或文字區塊的形式擷取,方便存取掃描後的數位版本。 擷取的資訊會被索引於搜尋中,並可用於合規功能,如 資料遺失防護 (DLP) 。
例如,你啟用 OCR 服務,然後將影像檔案加入你的文件庫。 此功能會自動掃描影像檔案,擷取相關文字,並讓圖片中的文字可供搜尋與索引使用。 此功能讓您能快速且準確地找到所需的關鍵字和片語。
需求與限制
此服務僅適用於 SharePoint 網站——包括樞紐網站、與樞紐網站相關聯的網站,以及網站集合的主網站。 子網站不被支援。
支援的檔案類型
| 端點 | 支援的檔案類型 |
|---|---|
| SharePoint 和 OneDrive |
.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf (scanned and hybrid) 嵌入的影像 docx, pptx, xlsx 會被擷取並掃描 |
| Exchange |
.jpeg, .jpg, .png, .bmp, .tiff, and PDFs (scanned and hybrid) . 嵌入的影像 docx, pptx, xlsx, rar, tar, zip, 7z |
| Teams、Windows 與 macOS 端點 | .jpeg, .jpg, .png, .bmp, .tiff, and PDF (image only) |
除了基於圖片的 PDF,SharePoint OCR 支援混合 PDF (文字加上圖片 PDF) 。 新上傳的混合PDF將由OCR服務處理。
注意事項
當你對影像檔案套用 OCR 時,文字會儲存在 「擷取的文字 元資料」欄位中。 當你對 PDF 或 TIFF 檔案套用 OCR 時,擷取的文字會被搜尋收錄,但不會出現在元資料欄位。
SharePoint 中的 Office 檔案支援
SharePoint 現已支援 Microsoft 365 Office 檔案的 OCR,包括 Word、PowerPoint 和 Excel 文件。 任何新增到這些檔案中的圖片都會以 OCR 自動掃描,擷取後的文字會被索引以供搜尋,並整合進合規解決方案中。 此外,SharePoint 實施了去重處理程序,以檢查唯一影像,以避免對同一影像產生重複收費。
支援的語言
OCR 服務 支援超過 150 種語言。
支援地點與解決方案
OCR 服務支援多種解決方案,如下表所示。 有關合規解決方案的詳細資訊,請參閱 Microsoft Purview 中的支援地點與解決方案。
| 位置 | 支援的解決方案 |
|---|---|
| Exchange | 文字可用於終端使用者搜尋及搜尋驅動解決方案。 合規 解決方案提供文字資料。 |
| SharePoint 網站 | 文字可用於終端使用者搜尋及搜尋驅動解決方案。 合規 解決方案提供文字資料。 |
| OneDrive 帳戶 | 文字可用於終端使用者搜尋及搜尋驅動解決方案。 合規 解決方案提供文字資料。 |
| Teams 聊天與頻道訊息 | 合規 解決方案提供文字資料。 |
| 裝置 | 合規 解決方案提供文字資料。 |
檔案限制
映像檔必須小於 50 MB。
影像必須至少為50 x 50像素,且不超過16,000 x 16,000像素。
啟用 OCR 後上傳的圖片是唯一會被掃描的圖片。