Freigeben über


Dokumentanalyse: Markdown-Darstellung

Azure Content Understanding in Foundry Tools wandelt unstrukturierte Dokumente in GitHub Flavored Markdown um, während Inhalte und Layout für die genaue nachgeschaltete Verwendung beibehalten werden. In diesem Artikel wird beschrieben, wie jedes Inhalts- und Layoutelement in Markdown dargestellt wird.

Wörter und Auswahlzeichen

Erkannte Wörter und erkannte Auswahlmarkierungen werden in Markdown als Nur-Text dargestellt. Auswahlzeichen werden mithilfe der Unicode-Zeichen (ausgewählt) und (gelöscht) codiert. Inhalte können mit Escapezeichen versehen werden, um Mehrdeutigkeiten mit Markdown-Formatierungssyntax zu vermeiden.

Barcodes

Barcodes werden als Markdown-Bilder mit Alternativtext und Titel dargestellt: ![alt text](url "title").

Inhaltstyp Markdown Muster Beispiel
Barcode ![{barcode.kind}]({barcode.path} "{barcode.value}") ![QRCode](barcodes/1.2 "https://www.microsoft.com")

Formeln

Mathematische Formeln werden mithilfe von LaTeX in Markdown codiert:

  • Inlineformeln werden in einzelne Dollarzeichen ($...$) eingeschlossen, um den Textfluss aufrechtzuerhalten.
  • Anzeigeformeln verwenden doppelte Dollarzeichen ($$...$$) für die eigenständige Anzeige.
  • Mehrzeilenformeln werden als aufeinander folgende Anzeigeformeln dargestellt, ohne dass leere Zeilen dazwischen stehen. Diese Struktur behält mathematische Beziehungen bei.
Formeltyp Markdown Visualisierung
Inline $\sqrt { -1 } $ is $i$ $\sqrt { -1 } $ ist $i$
Bildschirm $$a^2 + b^2 = c^2$$ $a^2 + b^2 = c^2$
Mehrzeilig $$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$
$$= x ( x + 4 ) + 4$$
$$( x + 2 ) ^ 2 = x ^ 2 + 4 x + 4$$ $$ = x ( x + 4 ) + 4$$

Bilder

Erkannte Bilder, einschließlich Abbildungen und Diagrammen, werden mithilfe der standardmäßigen Markdown-Bildsyntax dargestellt. Der Alternativtext enthält den erkannten Text in der Abbildung, und die Syntax variiert je nach Konfigurationsoptionen.

Bilddarstellungsmuster

Konfiguration Markdown Muster Description
Basic ![detected text](figures/path) Standardbild ohne Beschreibung
AbbildungBeschreibungAktivieren ![detected text](figures/path "description") Enthält eine generierte Bildbeschreibung.
enableFigureDescription + enableFigureAnalysis ![detected text](figures/path "description") gefolgt von einem Diagramm, einer Markdowntabelle oder einem Mermaid-Diagramm Bild mit Beschreibung und angefügter Abbildungsanalyse (Diagramm, Tabelle oder andere Darstellung)
Nur „enableFigureAnalysis“ ![detected text](figures/path) gefolgt von einem Diagramm, einer Markdowntabelle oder einem Mermaid-Diagramm Bild ohne Beschreibung und angefügte Analyse der Abbildungen (Chart, Tabelle oder Diagramm)

Examples

Bild ohne „enableFigureDescription“

![Line1 Line2](figures/1.1)

Bild mit „enableFigureDescription“

![Line1 Line2](figures/1.1 "This is a generated image description.")

Bild mit aktivierter Bildbeschreibung und Bildanalyse

![Line1 Line2](figures/1.1 "This is a generated image description.")
Option 1: Diagrammbildanalyse
{ ...chart config... }
Option 2: Analyse der Markdown-Tabellenfigur
| Month | Value |
|-------|-------|
| Jan   | 100   |
| Feb   | 150   |
| Mar   | 200   |
| Apr   | 250   |
| May   | 300   |
| Jun   | 275   |

Bild ohne aktivierte Figurenbeschreibung und Figurenanalyse

![Line1 Line2](figures/1.1)

```mermaid
{ ...mermaid diagram... }

Abbildungsanalyse

In Dokumenten erkannte Diagramme und Schaubilder werden als strukturierter Abbildungsinhalt mit spezialisierten Rendering-Formaten dargestellt.

Charts

Diagramme werden in Abbildungsinhalten mithilfe Chart.js Syntax im JSON-Format dargestellt. Abhängig von der config.chartFormat Einstellung (chartJs oder markdown) können Diagramme als Chart.js Codeblöcke oder Markdown-Tabellen dargestellt werden.

Chart.js Format (chartFormat=chartJs)

{
  "type": "bar",
  "data": {
    "labels": ["Jan", "Feb", "Mar", "Apr", "May", "Jun"],
    "datasets": [{
      "label": "Values",
      "data": [100, 150, 200, 250, 300, 275],
      "backgroundColor": "rgba(54, 162, 235, 0.2)",
      "borderColor": "rgba(54, 162, 235, 1)",
      "borderWidth": 1
    }]
  },
  "options": {
    "scales": {
      "y": {
        "beginAtZero": true
      }
    }
  }
}

Markdown-Tabellenformat (chartFormat=markdown)

Month Werte
Jan 100
Februar 150
Mar 200
Apr 250
Mai 300
Jun 275

Diagramme

Diagramme werden in Abbildungsinhalten mithilfe der Mermaid-Syntax dargestellt und als Mermaid-Codeblöcke in Markdown gerendert.

graph TD
    A[Start] --> B{Decision}
    B -->|Yes| C[Action 1]
    B -->|No| D[Action 2]
    C --> E[End]
    D --> E

Renderingunterstützung

Beliebte Markdown-Erweiterungen und -Viewer unterstützen das visuelle Rendering sowohl von Chart.js als auch von Mermaid-Codeblöcken:

  • Chart.js: Rendert interaktive Diagramme und Grafiken
  • Mermaid: Rendert Flussdiagramme, Sequenzdiagramme und andere Diagrammtypen
  • Die meisten modernen Markdown-Prozessoren enthalten Plug-Ins für beide Formate.

Zeilen und Absätze

Absätze werden in Markdown als Textblock dargestellt, der durch leere Zeilen getrennt ist. Wenn Zeilen verfügbar sind, wird jede Dokumentzeile einer separaten Zeile im Markdown zugeordnet.

Abschnitte

Absätze mit einer Titel- oder Abschnittsüberschrift werden in Markdown-Überschriften konvertiert. Der Titel, falls vorhanden, wird mit der Überschrift der Ebene 1 zugewiesen. Die Überschriftenebenen aller anderen Abschnitte werden zugewiesen, um die erkannte hierarchische Struktur beizubehalten.

Tabellen

Tabellen werden derzeit in Markdown mithilfe von HTML-Tabellenmarkup (<table>, <tr>, <th> und <td>) dargestellt, um die Unterstützung für zusammengeführte Zellen über rowspan und colspan Attribute und Rich-Header über <th> zu ermöglichen. Jede Beschriftung wird über ein <caption> Element dargestellt. Alle zugeordneten Fußnoten werden unmittelbar hinter der Tabelle als Text angezeigt.

<table>
<caption>Table 1. Example</caption>
<tr><th>Header A</th><th>Header B</th></tr>
<tr><td>Cell 1A</td><td>Cell 1B</td></tr>
<tr><td>Cell 2A</td><td>Cell 2B</td></tr>
</table>
This is a footnote.
Tabelle 1: Beispiel
Überschrift AÜberschrift B
Zelle 1AZelle 1B
Zelle 2AZelle 2B
Dies ist eine Fußnote.

Seitenmetadaten

Markdown codiert seitenmetadaten nicht nativ, z. B. Seitenzahlen, Kopfzeilen, Fußzeilen und Umbrüche. Da diese Informationen für nachgeschaltete Anwendungen nützlich sein können, codieren wir Metadaten wie HTML-Kommentare.

Metadaten Markdown
Seitenzahl <!-- PageNumber="1" -->
Seitenkopf <!-- PageHeader="Header" -->
Seitenfuß <!-- PageNumber="Footer" -->
Seitenumbruch <!-- PageBreak -->

Erkannte Links aus digitalen Inhalten werden mithilfe der standardmäßigen Markdown-Linksyntax dargestellt. Der Dienst behält sowohl den Anzeigetext als auch die Ziel-URL aus dem ursprünglichen Dokument bei.

Verknüpfungstyp Markdown Muster Beispiel
Standardlink [display text](url) [Visit Microsoft](https://www.microsoft.com)

Examples

For more information, visit the [Microsoft Foundry](https://aka.ms/ai-foundry) portal.

Contact our support team at [support@contoso.com](mailto:support@contoso.com "Email support").

See the [official documentation][docs] for detailed instructions.

[docs]: https://docs.microsoft.com

Anmerkungen

Dokumentanmerkungen wie Hervorhebungen, Unterstreichungen und Kommentare können in Markdown mithilfe verschiedener Formate dargestellt werden, die annotationFormat vom Parameter gesteuert werden.

Anmerkungsformate

Format Description Anwendungsfall
none Keine Anmerkungsinformationen in Markdown Volle Kontrolle über die Anmerkungsdarstellung
frontMatter Anmerkungen im YAML-Frontmatter mit HTML-Bereichen Einfache RAG-Szenarien mit vollständigem Dokumentkontext
markdown Native Markdown-Anmerkungssyntax Standardmäßige Markdown-Kompatibilität

Format: keine

Wenn Sie festlegen, enthält Markdown keine Anmerkungsinformationen. Setzen Sie sowohl enableAnnotation als auch returnDetails auf true, um Anmerkungen zu extrahieren.

This is the document content without any annotation markers.
Use the annotations JSON property to customize representation.

Format: frontMatter (Standard)

Codiert Anmerkungen im YAML-Frontmatter mit HTML-Bereichen, die id-Attribute enthalten, die auf Anmerkungsdetails verweisen.

---
fields:
  title: "Document Title"
annotations:
- id: underline-1
  author: Paul
  type: underline
  comments:
  - message: "Please review this section"
    author: Paul
    tags: "approved,👍3"
- id: highlight-2
  author: Sarah
  type: highlight
  comments:
  - message: "Important information"
    author: Sarah
---

This is <span id="underline-1">underlined text</span> in the document.

This section contains <span id="highlight-2">highlighted content</span> for emphasis.

<!-- Annotations without spans appear at page end -->
<span id="note-3" />

Format: Markdown

Verwendet native Markdown-Syntax für Anmerkungen, wenn sie vom Ziel-Markdown-Prozessor unterstützt werden.

This text has ==highlighted content== for emphasis.

This text has ++underlined content++ for attention.

> **Note:** This is an annotation comment.

Schlussfolgerung

Die Elemente "Content Understanding Markdown" bieten eine leistungsstarke Möglichkeit, die Struktur und den Inhalt analysierter Dokumente darzustellen. Wenn Sie diese Markdown-Elemente richtig verstehen und verwenden, können Sie Ihre Dokumentverarbeitungsworkflows verbessern. Sie können auch anspruchsvollere Inhaltsextraktionsanwendungen erstellen.