共用方式為


瞭解文件智能版面配置 API 的 Markdown 輸出格式

Foundry Tools Layout API 中的 Azure 文件智慧能將您的文件轉換成豐富的 Markdown,保留原始結構與格式。 只需在你的要求中指定 outputContentFormat=markdown ,即可接收語義結構化的內容,確保段落、標題、表格和其他文件元素保持在其正確的階層中。

此 Markdown 輸出會優雅地擷取檔的原始組織,同時為下游應用程式提供標準化且容易取用的內容。 保留的語意結構可讓您更複雜的文件處理工作流程,而不會遺失檔元素之間的內容和關聯性。

版面配置分析中支援的 Markdown 元素

下列 Markdown 元素包含在版面設定 API 回應中:

  • 段落
  • 標題
  • 圖表
  • 選取項目標記
  • 公式
  • 條碼
  • 頁碼/頁首/頁尾
  • PageBreak
  • KeyValuePairs/Language/Style
  • 範圍和內容

段落

段落代表語意上屬於一起的文字一致區塊。 版面配置 API 會藉由下列方式維護段落完整性:

  • 在段落間保留空行以維持段落界限
  • 使用段落內的換行符來維護源檔的視覺結構
  • 維護適當的文字流程,以遵守源文件的閱讀順序

以下為範例:

This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.

This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.

標題

標題會將文件內容組織成階層式結構,讓導覽和瞭解變得更容易。 版面配置 API 具有下列功能:

  • 使用標準 Markdown 標題語法搭配對應至標題層級的 1-6 個雜湊符號 (#)。
  • 在每個標題之前維持兩個空白行的適當間距,以改善可讀性。

以下為範例:

# This is a title

## This is heading 1

### This is heading 2

#### This is heading 3

數據表會以可視化組織的格式保留複雜的結構化數據。 版面配置 API 會使用 HTML 資料表語法來達到最大精確度和相容性:

  • 實作完整的 HTML 資料表標記 (<table>、 、 <tr><th><td>) 而非標準 Markdown 資料表
  • 保留合併的儲存格與 HTML rowspan 和 colspan 屬性。
  • 保留表格標題,並使用 <caption> 標籤來維護文件上下文
  • 處理複雜的數據表結構,包括頁首、單元格和頁尾
  • 在每個數據表之前保留兩個空白行的適當間距,以改善可讀性
  • 將表格腳註保留為表格後面的個別段落

以下為範例:

<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.

圖表

版面配置 API 會保留圖形元素:

  • 將圖形內容封裝在標籤中 <figure> ,以維持與周圍文字的語意區別
  • 保留使用 <figcaption> 標籤的圖說以提供重要背景資訊
  • 將圖表註腳保留為圖表容器後面的個別段落

這很重要

如果我們偵測到某些文件元件,例如區段標題做為圖形的一部分,Markdown 輸出將不會在輸出中顯示圖形,並使用資訊進行文件結構分析。 在這些情況下,列舉 JSON 中的 [圖表] 欄位,以擷取所有圖表。

以下為範例:

<figure>
<figcaption>Figure 2 This is a figure</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is footnote if the figure have.

選取項目標記

選取標記代表表單和文件中類似核取方塊的元素。 版面配置 API:

  • 使用 Unicode 字元以提升視覺清晰度:☒(已核取)和☐(未核取)
  • 篩選出低信賴度複選框偵測(低於0.1信賴度)以改善可靠性
  • 維護選取標記與其相關聯文字之間的語意關聯性

公式

數學公式會保留與 LaTeX 相容的語法,以允許轉譯複雜的數學表達式:

  • 內嵌公式以單個美元符號括住($...$),以保持文字流暢。
  • 區塊公式使用雙元符號 ($$...$$) 進行獨立顯示
  • 多行公式會以連續區塊公式表示,保留數學關聯性
  • 會保留原始間距和格式設定,以確保正確表示

以下是內嵌公式、單行公式區塊和多行公式區塊的範例:

The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula

$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$

$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$

條碼

條碼和 QR 代碼是使用 Markdown 影像語法來表示,其中包含新增的語意資訊:

  • 使用標準影像 Markdown 語法搭配描述性屬性
  • 擷取條碼類型(QR 代碼、條碼等)及其編碼值
  • 保留條碼與周圍內容之間的語意關聯性

以下為範例:

![QRCode](barcodes/1.1 "https://www.microsoft.com")

![UPCA](barcodes/1.2 "012345678905")
 
![barcode type](barcodes/pagenumber.barcodenumber "barcode value/content")

頁碼/頁首/頁尾

頁面元數據元素提供有關文件分頁的上下文資訊,並非要與主要內容內嵌顯示:

  • 以 HTML 批注括住,以保留資訊,同時將其隱藏在標準 Markdown 轉譯中
  • 維護原始頁面結構資訊,這可能對檔重建有價值
  • 可讓應用程式瞭解檔分頁,而不會中斷內容流程

以下為範例:

<!-- PageHeader="This is page header" -->

<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->


PageBreak

為了輕鬆地識別純 Markdown 內容中每個部分所屬的頁面,我們引入 PageBreak 作為頁面的分隔符。

以下為範例:

<!-- PageBreak -->

KeyValuePairs/Language/Style

針對 KeyValuePairs/Language/Style,我們會將它們映射至 Analytics JSON 本體,而不是在 Markdown 內容中。

備註

如需目前支援 GitHub.com 用戶內容之 Markdown 的詳細資訊, 請參閱GitHub Flavored Markdown 規格

結論

Document Intelligence 的 Markdown 元素提供強大的方法來代表分析文件的結構和內容。 藉由瞭解並正確運用這些 Markdown 元素,您可以增強文件處理工作流程,並建置更複雜的內容擷取應用程式。

後續步驟