內容理解讓客戶能將分類與拆分納入分析器操作請求中。 你可以在同一個 API 呼叫中執行內容分類與擷取。
全域的 analyzer 概念現在包括 contentCategories 和 enableSegment,以分類和分割在應用程式中處理的輸入資料。 此分析器功能可對整體輸入檔案進行分類。 它還可以識別輸入檔案中多個文件或單一文件的多個實例。
從 GA 版本開始,文件分類與影片分割設計統一,使輸入資料無論採用何種模式都能以連貫的方式處理。 在文件中,「內容理解分類」指的是用於分類與分割輸入資料(contentCategories 與 enableSegment)所需的分析操作。
商務使用案例
內容理解分類允許處理各種格式與範本的複雜文件與影片:
- 發票:視需要,將來自多個廠商的發票分類,以使用不同的內容瞭解分析器來處理每個類別。
- 稅務文件:將多個稅務文件分類為不同類型的稅務表格,例如 1040 和 1099。
- 合約: 將冗長且結構鬆散的合約進行分類,以簡化營運,從而釐清不同類型的合約及其特定法律影響。
- 體育影片:自動將場景分割成合邏輯的片段,如廣告與實際體育內容。
分類/分群能力
內容理解能分析單一或多檔案文件,判斷輸入檔案是否可依定義分類。 以下是支援的案例:
文件情境:
- 僅供分類:將整個輸入檔案分類。 例如,一個只包含一種文件類型的檔案,例如貸款申請表。
- 分類與分析:透過將輸入導向所需的萃取分析器,分類並分析輸入檔案。
- 分類與區段:分類並分割可能包含多種類型或文件實例的單一輸入檔案。 例如,包含貸款申請表、薪資單和銀行對帳單的貸款申請包。 另一個例子是將掃描發票集中在單一檔案中。
- 分類、分段與分析:分段分類完成後,將每個分段導向所需的萃取分析儀進行進一步現場萃取。
- 階層分類器:根據類別進行的可選擇性附加分析也可以成為分類器分析工具。
影片情境:
-
僅分段:根據定義在
description的contentCategories欄位中定義的內容特性,將影片分割成多個段。 例如,將體育轉播拆分為比賽內容、廣告和評論片段。 - 分段與分析:將影片拆分成多個片段,並將每個片段導向分析器進行現場擷取。
備註
文件分類的最低單位為單頁。 不支援頁面內分類。
建立分類類別
內容理解分類不需要訓練資料集。 你可以在分析操作中定義最多 200 個類別名稱和描述。 預設情況下,整個檔案會被視為單一內容物件,也就是說該檔案會被關聯到單一類別。
從 GA 版本開始,您需要在 other 內包括 contentCategories 類別,以確保內容仍可以不符合您所定義的任何類別。 若未包含該 other 類別,所有檔案將被強制歸入你定義的某一類別。 你在內定義 contentCategories 的每個類別名稱也可以包含 a description ,以提供你所定義類別的更多資訊。
輸入檔案分割
當您在檔案中有多份文件時,分類器可以識別具有分割功能之輸入檔案內所包含的不同文件類型。 分類器回應包含檔案內每個已識別檔類型的頁面範圍。 此回應可以包含相同文件類型的多個執行個體。
執行操作 analyze 時,它現在包含 enableSegment 一個屬性,讓你能對分割行為做更細緻的控制。 您也可以指定頁碼,只分析輸入文件的特定頁面:
- 若要將整個輸入檔案視為多個文件合併進行分類,請設
enableSegment為true。 當你這麼做時,服務會自動回傳輸入檔案中各區段的分類。 - 若要將整個輸入檔案視為單一文件,請設
enableSegment為false。
備註
影片只支援分段功能。 你必須定義一個 contentCategories ,使其 enableSegment 設為 true。 使用欄位 description 指定將影片分割成多個段落的條件。
選擇性分析
若要完整的端到端流程,你可以將分類器類別與現有的自訂分析器及預建分析器連結。 對於分類為具有連結分析器之類別的每個內容對象,服務會使用對應的分析器自動叫用內容物件上的分析。
例如,您可以使用此連結來建立分類器,以識別和分析僅在文件中含有多種表單類型的 PDF 發票。 設定 analyzerId 為我們的預建分析器或客製化分析器,以便對已分類的文件或頁面進行路由並執行欄位擷取。
你也可以省略設置任何 analyzerId 來進行分類,但不能對分類的檔案或區段執行內容分析。
在最上層,你可以將 omitContent 設為 true,以確保省略原始內容對象,僅回傳來自已分類區段或檔案中其他分析的內容對象。
階層分類器
新設計的分析儀操作允許階層式拆分與分類。 例如,在基本分析器操作中,你可以設定 analyzerID 自訂分析器所定義的內容類別,根據需求進行額外的分類或分割。 定義階層式分析器允許對不同類型的文件如發票、合約和收據進行分類,每個類別的分析ID也可以作為分析操作,並對發票、合約和收據中不同類型的檔案啟用額外分類。
文件輸入支援五層巢狀結構,視訊輸入支援兩種層級。
分類器限制
如需支援的輸入文件格式和分類器限制的相關資訊,請參閱 服務配額和限制。
最佳做法
若要改善分類和分割品質,請使用良好的類別名稱和描述,讓模型可以理解某些內容中的類別。 如需類別名稱和描述的詳細資訊,請參閱 最佳做法。
主要優點
- 正確性和可靠性:確保精確的文件分類,以減少錯誤並提升效率。
- 可擴縮性:向外延展文件處理以符合商務需求。
- 可自訂:調整文件分類器以符合特定工作流程。
支援的語言和區域
如需支援的語言和區域清單,請參閱 語言和區域支援。
資料隱私權和安全性
使用內容瞭解的開發人員應該檢閱客戶資料的 Microsoft 原則。 如需詳細資訊,請參閱 資料、保護和隱私權。
相關內容
- 試著在 Content Understanding Studio 中處理你的文件內容
- 學習如何使用 分析器範本處理文件內容。