除了使用 自訂模型外,文件處理還提供預先建置的模型,幫助自動化從文件中擷取資訊——無需訓練。 這些模型已準備好使用,並設計用來辨識常見的文件類型與資料模式,讓您能快速開始並有效擴展規模。
注意事項
Microsoft 尊重你用來訓練和處理模型的資料的隱私與所有權。 Microsoft不會使用或轉移貴組織的資料來訓練人工智慧模型、大型語言模型或其他任何模型。 您的資料安全地保存在您的組織租戶中。 欲了解更多資訊,請參閱 Microsoft 資料保護與隱私。
預製車型介紹
預建文件處理使用已設定的預訓練模型,能辨識常見文件類型並擷取結構化資訊。 你不必從零開始建立自訂模型,而是可以從預先建構的模型開始,並透過加入符合組織需求的欄位來調整。
這些模型結合了光學字元辨識 (OCR) 與深度學習,以識別並提取預設的文字與資料欄位。 開始時,先用預建模型分析一個範例檔案。 接著,選擇與你情境相關的欄位。 如果模型偵測不到你需要的欄位,試著分析另一個檔案。
和其他模型一樣,預建模型會在 內容中心建立和管理。 當你將模型套用到 SharePoint 文件函式庫時,它會連結到內容類型,並包含欄位來儲存擷取的資訊。
發佈模型後,使用內容中心將其套用到你能存取的任何 SharePoint 文件庫。
可選的預組裝車型
目前有五種預建處理模型可用: 合約、 發票、 收據、 敏感資訊及 簡單文件。
合約。 預建 合約處理模型 會分析並提取合約文件中的關鍵資訊。 API 分析各種格式的合約,並擷取關鍵合約資訊,如客戶姓名與地址、合約期限及續約日期。
發票。 發 票處理模型 分析並提取銷售發票中的關鍵資訊。 API 會以各種格式分析發票,並擷取重要的發票資訊,例如客戶名稱、帳單位址、到期日和到期金額。
收據。 收據處理模型分析並提取銷售收據的關鍵資訊。 API 會分析列印和手寫收據,並解壓縮重要收據資訊,例如商家名稱、商家電話號碼、交易日期、稅金和交易總額。
敏感性資訊。 敏感資訊模型分析、偵測並擷取文件中的關鍵資訊。 API 分析各種格式的文件,並 偵測及提取關鍵敏感資訊,例如個人及財務識別碼、實體及電子郵件地址,以及電話號碼。
簡單的文件。 簡單的文件處理模型提供一個靈活且預先訓練的解決方案,用於從基本結構化文件中提取鍵值對、選取標記及命名實體。 此模型亦支援條碼與語言偵測。
未來版本將會提供其他預建模型。
需求與限制
關於選擇此模型時應考慮的需求資訊,請參閱 預建文件處理的需求與限制。