瞭解文件智能版面配置 API 的 Markdown 輸出格式

Foundry Tools Layout API 中的 Azure 文件智慧能將您的文件轉換成豐富的 Markdown，保留原始結構與格式。只需在你的要求中指定 outputContentFormat=markdown ，即可接收語義結構化的內容，確保段落、標題、表格和其他文件元素保持在其正確的階層中。

此 Markdown 輸出會優雅地擷取檔的原始組織，同時為下游應用程式提供標準化且容易取用的內容。保留的語意結構可讓您更複雜的文件處理工作流程，而不會遺失檔元素之間的內容和關聯性。

版面配置分析中支援的 Markdown 元素

下列 Markdown 元素包含在版面設定 API 回應中：

段落
標題
表
圖表
選取項目標記
公式
條碼
頁碼/頁首/頁尾
PageBreak
KeyValuePairs/Language/Style
範圍和內容

段落

段落代表語意上屬於一起的文字一致區塊。版面配置 API 會藉由下列方式維護段落完整性：

在段落間保留空行以維持段落界限
使用段落內的換行符來維護源檔的視覺結構
維護適當的文字流程，以遵守源文件的閱讀順序

以下為範例：

This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.

This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.

標題

標題會將文件內容組織成階層式結構，讓導覽和瞭解變得更容易。版面配置 API 具有下列功能：

使用標準 Markdown 標題語法搭配對應至標題層級的 1-6 個雜湊符號 (#)。
在每個標題之前維持兩個空白行的適當間距，以改善可讀性。

以下為範例：

# This is a title

## This is heading 1

### This is heading 2

#### This is heading 3

表

數據表會以可視化組織的格式保留複雜的結構化數據。版面配置 API 會使用 HTML 資料表語法來達到最大精確度和相容性：

實作完整的 HTML 資料表標記（<table>、、 <tr><th><td>）而非標準 Markdown 資料表
保留合併的儲存格與 HTML rowspan 和 colspan 屬性。
保留表格標題，並使用 <caption> 標籤來維護文件上下文
處理複雜的數據表結構，包括頁首、單元格和頁尾
在每個數據表之前保留兩個空白行的適當間距，以改善可讀性
將表格腳註保留為表格後面的個別段落

以下為範例：

<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.

圖表

版面配置 API 會保留圖形元素：

將圖形內容封裝在標籤中 <figure> ，以維持與周圍文字的語意區別
保留使用 <figcaption> 標籤的圖說以提供重要背景資訊
將圖表註腳保留為圖表容器後面的個別段落

這很重要

如果我們偵測到某些文件元件，例如區段標題做為圖形的一部分，Markdown 輸出將不會在輸出中顯示圖形，並使用資訊進行文件結構分析。在這些情況下，列舉 JSON 中的 [圖表] 欄位，以擷取所有圖表。

以下為範例：

<figure>
<figcaption>Figure 2 This is a figure</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is footnote if the figure have.

選取項目標記

選取標記代表表單和文件中類似核取方塊的元素。版面配置 API：

使用 Unicode 字元以提升視覺清晰度：☒（已核取）和☐（未核取）
篩選出低信賴度複選框偵測（低於0.1信賴度）以改善可靠性
維護選取標記與其相關聯文字之間的語意關聯性

公式

數學公式會保留與 LaTeX 相容的語法，以允許轉譯複雜的數學表達式：

內嵌公式以單個美元符號括住（ $...$ ），以保持文字流暢。
區塊公式使用雙元符號（$$...$$）進行獨立顯示
多行公式會以連續區塊公式表示，保留數學關聯性
會保留原始間距和格式設定，以確保正確表示

以下是內嵌公式、單行公式區塊和多行公式區塊的範例：

The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula

$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$

$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$

條碼

條碼和 QR 代碼是使用 Markdown 影像語法來表示，其中包含新增的語意資訊：

使用標準影像 Markdown 語法搭配描述性屬性
擷取條碼類型（QR 代碼、條碼等）及其編碼值
保留條碼與周圍內容之間的語意關聯性

以下為範例：

![QRCode](barcodes/1.1 "https://www.microsoft.com")

![UPCA](barcodes/1.2 "012345678905")
 
![barcode type](barcodes/pagenumber.barcodenumber "barcode value/content")

頁碼/頁首/頁尾

頁面元數據元素提供有關文件分頁的上下文資訊，並非要與主要內容內嵌顯示：

以 HTML 批注括住，以保留資訊，同時將其隱藏在標準 Markdown 轉譯中
維護原始頁面結構資訊，這可能對檔重建有價值
可讓應用程式瞭解檔分頁，而不會中斷內容流程

以下為範例：

<!-- PageHeader="This is page header" -->

<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->

PageBreak

為了輕鬆地識別純 Markdown 內容中每個部分所屬的頁面，我們引入 PageBreak 作為頁面的分隔符。

以下為範例：

<!-- PageBreak -->

KeyValuePairs/Language/Style

針對 KeyValuePairs/Language/Style，我們會將它們映射至 Analytics JSON 本體，而不是在 Markdown 內容中。

備註

如需目前支援 GitHub.com 用戶內容之 Markdown 的詳細資訊， 請參閱GitHub Flavored Markdown 規格。

結論

Document Intelligence 的 Markdown 元素提供強大的方法來代表分析文件的結構和內容。藉由瞭解並正確運用這些 Markdown 元素，您可以增強文件處理工作流程，並建置更複雜的內容擷取應用程式。

後續步驟

嘗試使用 Document Intelligence Studio 處理您的檔。
完成文件智慧服務快速入門，並開始以您選擇的開發語言來建立文件處理應用程式。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-11-18

共用方式為

瞭解文件智能版面配置 API 的 Markdown 輸出格式

版面配置分析中支援的 Markdown 元素

段落

標題

表

圖表

選取項目標記

公式

條碼

頁碼/頁首/頁尾

PageBreak

KeyValuePairs/Language/Style

結論

後續步驟

意見反應

其他資源