Partager via


Comprendre le format de sortie Markdown de l'API de mise en page Document Intelligence

L'API de mise en page Azure Document Intelligence des Foundry Tools peut convertir vos documents en Markdown enrichi, en préservant leur structure d'origine et leur mise en forme. Spécifiez outputContentFormat=markdown simplement dans votre demande de recevoir du contenu sémantiquement structuré qui gère des paragraphes, des titres, des tables et d’autres éléments de document dans leur hiérarchie appropriée.

Cette sortie Markdown capture de manière élégante l’organisation d’origine du document tout en fournissant du contenu standardisé et facilement consommable pour les applications en aval. La structure sémantique conservée permet de traiter des documents plus sophistiqués sans perdre le contexte et les relations entre les éléments de document.

Éléments Markdown pris en charge dans l’analyse de mise en page

Les éléments Markdown suivants sont inclus dans les réponses de l’API Layout :

  • Paragraph
  • Rubrique
  • Tableau
  • Figure
  • Marque de sélection
  • Formule
  • Code-barres
  • NuméroDePage/En-têteDePage/PiedDePage
  • Saut de Page
  • KeyValuePairs/Language/Style
  • Étendues et contenu

Paragraph

Les paragraphes représentent des blocs de texte cohérents qui appartiennent sémantiquement. L’API Layout gère l’intégrité des paragraphes par :

  • Conservation des limites de paragraphes avec des lignes vides entre des paragraphes distincts
  • Utilisation de sauts de ligne dans des paragraphes pour maintenir la structure visuelle du document d’origine
  • Maintien d’un flux de texte approprié qui respecte l’ordre de lecture du document d’origine

Voici un exemple :

This is paragraph 1.
This is still paragraph 1, even if in another Markdown line.

This is paragraph 2. There is a blank line between paragraph 1 and paragraph 2.

Rubrique

Les titres organisent le contenu du document dans une structure hiérarchique pour faciliter la navigation et la compréhension. L’API Layout offre les fonctionnalités suivantes :

  • Utilise la syntaxe de titre Markdown standard avec des symboles de hachage 1 à 6 (#) correspondant aux niveaux de titre.
  • Conserve l’espacement approprié avec deux lignes vides avant chaque titre pour améliorer la lisibilité.

Voici un exemple :

# This is a title

## This is heading 1

### This is heading 2

#### This is heading 3

Tableau

Les tables conservent des données structurées complexes dans un format organisé visuellement. L’API Layout utilise la syntaxe de table HTML pour une fidélité et une compatibilité maximales :

  • Implémente le balisage complet de table HTML (<table>, <tr>, <th>, <td>) plutôt que les tables Markdown standard
  • Préserve la cellule fusionnée avec les attributs HTML rowspan et colspan.
  • Conserve les légendes de table avec la balise <caption> pour conserver le contexte du document
  • Gère les structures de table complexes, notamment les en-têtes, les cellules et les pieds de page
  • Maintient l’espacement approprié avec deux lignes vides avant chaque table pour améliorer la lisibilité
  • Conserve les notes de bas de page du tableau comme paragraphe distinct suivant le tableau

Voici un exemple :

<table>
<caption>Table 1. This is a demo table</caption>
<tr><th>Header</th><th>Header</th></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Cell</td><td>Cell</td></tr>
<tr><td>Footer</td><td>Footer</td></tr>
</table>
This is the footnote of the table.

Figure

L’API Layout conserve les éléments de figure :

  • Encapsule le contenu de la figure dans <figure> les balises pour maintenir la distinction sémantique du texte environnant
  • Conserve les légendes de figure avec la <figcaption> balise pour fournir un contexte important
  • Conserve les notes de bas de page des illustrations en tant que paragraphes distincts suivant le conteneur d'illustration.

Important

Dans les cas où nous détectons certains composants de document tels que l’en-tête de section dans les figures, la sortie markdown ne présente pas de chiffres dans la sortie et utilise les informations pour l’analyse de la structure du document. Pour ces cas, énumérez le champ figures au format JSON pour récupérer toutes les figures.

Voici un exemple :

<figure>
<figcaption>Figure 2 This is a figure</figcaption>

Values
300
200
100
0

Jan Feb Mar Apr May Jun Months

</figure>

This is footnote if the figure have.

Marque de sélection

Les marques de sélection représentent des éléments de type case à cocher dans les formulaires et les documents. L’API de mise en page :

  • Utilise des caractères Unicode pour la clarté visuelle : ☒ (activé) et ☐ (décoché)
  • Filtre les détections de cases à faible confiance (inférieures à 0,1 confiance) pour améliorer la fiabilité
  • Maintient la relation sémantique entre les marques de sélection et leur texte associé

Formule

Les formules mathématiques sont conservées avec la syntaxe compatible LaTeX qui permet le rendu d’expressions mathématiques complexes :

  • Les formules inline sont placées entre des signes dollar ($...$) pour conserver le flux de texte.
  • Les formules de bloc utilisent des signes dollar doubles ($$...$$) pour l’affichage autonome.
  • Les formules à plusieurs lignes sont représentées sous forme de formules de bloc consécutives, préservant les relations mathématiques
  • L’espacement et la mise en forme d’origine sont conservés pour garantir une représentation précise

Voici un exemple de formule inline, de bloc de formule monoligne et de bloc de formule à plusieurs lignes :

The mass-energy equivalence formula $E = m c ^ { 2 }$ is an example of an inline formula

$$\frac { n ! } { k ! \left( n - k \right) ! } = \binom { n } { k }$$

$$\frac { p _ { j } } { p _ { 1 } } = \prod _ { k = 1 } ^ { j - 1 } e ^ { - \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } }$$
$$= \exp \left[ - \sum _ { k = 1 } ^ { j - 1 } \beta _ { k , k + 1 } \Delta E _ { k , k + 1 } \right] .$$

Code-barres

Les codes-barres et les codes QR sont représentés à l’aide de la syntaxe d’image Markdown avec des informations sémantiques ajoutées :

  • Utilise la syntaxe Markdown d’image standard avec des attributs descriptifs
  • Capture à la fois le type de code-barres (code QR, code-barres, etc.) et sa valeur encodée
  • Conserve la relation sémantique entre les codes-barres et le contenu environnant

Voici un exemple :

![QRCode](barcodes/1.1 "https://www.microsoft.com")

![UPCA](barcodes/1.2 "012345678905")
 
![barcode type](barcodes/pagenumber.barcodenumber "barcode value/content")

NuméroDePage/En-têteDePage/PiedDePage

Les éléments de métadonnées de page fournissent un contexte sur la pagination de document, mais ne sont pas destinés à être affichés en ligne avec le contenu principal :

  • Placés dans des commentaires HTML pour conserver les informations tout en les gardant masquées dans le rendu Markdown standard
  • Gère les informations de structure de page d’origine qui peuvent être utiles pour la reconstruction de documents
  • Permet aux applications de comprendre la pagination de document sans perturber le flux de contenu

Voici un exemple :

<!-- PageHeader="This is page header" -->

<!-- PageFooter="This is page footer" -->
<!-- PageNumber="1" -->


Saut de Page

Pour déterminer facilement les parties qui appartiennent à la base de pages sur le contenu Markdown pur, nous avons introduit PageBreak comme délimiteur des pages

Voici un exemple :

<!-- PageBreak -->

KeyValuePairs/Language/Style

Pour KeyValuePairs/Language/Style, nous les mappons au corps JSON Analytics et non dans le contenu Markdown.

Remarque

Pour plus d’informations sur le marquage Markdown actuellement pris en charge pour le contenu utilisateur sur GitHub.com, consultezGitHub Flavored Markdown Spec.

Conclusion

Les éléments Markdown de Document Intelligence offrent un moyen puissant de représenter la structure et le contenu des documents analysés. En comprenant et en utilisant correctement ces éléments Markdown, vous pouvez améliorer vos flux de travail de traitement de documents et créer des applications d’extraction de contenu plus sophistiquées.

Étapes suivantes