Dokumentverarbeitungsmodelle

Dieser Inhalt gilt für:Version 4.0 (GA) | Vorherige Versionen:Version 3.1 (GA)Version 3.0 (GA)Version 2.1 (GA)

Dieser Inhalt gilt für:Version 3.1 (GA) | Aktuelle Version:Version 4.0 (GA) | Vorherige Versionen:Version 3.0Version 2.1

Dieser Inhalt gilt für:Version 3.0 (GA) | Neueste Versionen:Version 4.0 (GA)v3.1 | Vorherige Version:Version 2.1

Dieser Inhalt gilt für:Version 2.1 | Neueste Version:Version 4.0 (GA)

Azure Document Intelligence in Foundry Tools unterstützt verschiedene Modelle, mit denen Sie Ihren Apps und Flüssen intelligente Dokumentverarbeitung hinzufügen können. Sie können ein vordefiniertes domänenspezifisches Modell oder ein benutzerdefiniertes Modell trainieren, das auf Ihre spezifischen Geschäftsanforderungen und Anwendungsfälle zugeschnitten ist. Dokument Intelligenz kann mit der REST-API oder Python-, C#-, Java- und JavaScript-Clientbibliotheken verwendet werden.

Hinweis

Dokumentverarbeitungsprojekte, die Finanzdaten, geschützte Gesundheitsdaten, persönliche oder hochsensible Daten umfassen, erfordern besondere Umsicht. Stellen Sie sicher, dass alle nationalen, regionalen und branchenspezifischen Anforderungen erfüllt werden.

Übersicht über das Modell

Die folgende Tabelle zeigt die allgemein verfügbaren (GA)-Modelle für jede stabile API.

Modelltyp	Modell	2024-11-30 (GA)	2023-07-31 (GA)	2022-08-31 (GA)	v2.1 (GA)
Dokumentanalysemodelle	Lesen	✔️	✔️	✔️	Nicht verfügbar
Dokumentanalysemodelle	Layout	✔️	✔️	✔️	✔️
Dokumentanalysemodelle	Allgemeines Dokument**	Wird unterstützt in Layoutmodell	✔️	✔️	Nicht verfügbar
Vordefinierte Modelle	Bankscheck	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Bankauszug	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	payStub	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Vertrag	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Krankenversicherungskarte	✔️	✔️	✔️	Nicht verfügbar
Vordefinierte Modelle	ID-Dokument	✔️	✔️	✔️	✔️
Vordefinierte Modelle	Rechnung	✔️	✔️	✔️	✔️
Vordefinierte Modelle	Beleg	✔️	✔️	✔️	✔️
Vordefinierte Modelle	US Unified Tax*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US 1040 Tax*	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US 1095 Tax*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US 1098 Tax*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US 1099 Tax*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US W2 Tax	✔️	✔️	✔️	Nicht verfügbar
Vordefinierte Modelle	US W4 Tax	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US-Hypothek 1003 URLA	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US Mortgage 1004 URAR	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US Mortgage 1005	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US Mortgage 1008 Zusammenfassung	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	US Mortgage Closing Disclosure	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Heiratsurkunde	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Kreditkarte	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Vordefinierte Modelle	Visitenkarte	veraltet	✔️	✔️	✔️
Benutzerdefiniertes Klassifizierungsmodell	Benutzerdefinierter Klassifizierer	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Benutzerdefiniertes Extraktionsmodell	Benutzerdefiniertes neuronales Modell	✔️	✔️	✔️	Nicht verfügbar
Benutzerdefiniertes Extraktionsmodell	Benutzerdefiniertes Vorlagenmodell	✔️	✔️	✔️	✔️
Benutzerdefiniertes Extraktionsmodell	Benutzerdefiniert zusammengesetzt	✔️	✔️	✔️	✔️
Alle Modelle	Add-On-Funktionen	✔️	✔️	Nicht verfügbar	Nicht verfügbar

* Enthält Untermodelle. Informationen zu unterstützten Variationen und Untertypen finden Sie in den modellspezifischen Informationen.
** Alle Funktionen für das allgemeine Dokumentmodell sind im Layoutmodell verfügbar. Das allgemeine Modell wird nicht mehr unterstützt.

Latency

Latenz ist die Zeit, die ein API-Server benötigt, um eine eingehende Anforderung zu behandeln und zu verarbeiten und die ausgehende Antwort an den Client zu senden. Die Dauer einer Dokumentanalyse hängt von der Größe (z. B. Anzahl von Seiten) und vom Inhalt der einzelnen Seiten ab. Dokument Intelligenz ist ein mehrinstanzenfähiger asynchroner Dienst, bei dem die Latenz für ähnliche Dokumente vergleichbar, aber nicht immer identisch ist. Gelegentliche Variabilität bei Latenz und Leistung ist in jedem auf Microservices basierenden, zustandslosen Dienst, der Bilder und große Dokumente im großen Stil verarbeitet, inhärent. Obwohl wir die Hardware-, Kapazitäts- und Skalierungsfunktionen kontinuierlich hochskalieren, können zur Laufzeit weiterhin Latenzprobleme auftreten.

Add-On-Funktion

Die folgenden Add-On-Funktionen sind für Dokument Intelligenz verfügbar. Für alle Modelle mit Ausnahme des Visitenkartenmodells unterstützt Dokument Intelligenz jetzt Add-On-Funktionen, um eine komplexere Analyse zu ermöglichen. Diese optionalen Funktionen können je nach Szenario der Dokumentextraktion aktiviert und deaktiviert werden. Die folgenden Add-On-Funktionen sind für API-Versionen ab 2023-07-31 (GA) verfügbar:

ocrHighResolution
formulas
styleFont
barcodes
languages
keyValuePairs
queryFields (nicht verfügbar mit den US-Steuermodellen)
searchablePDF (nur für das Lesemodell verfügbar)

Add-On-Funktion	Add-On/Free	2024-11-30 (GA)	2023-07-31 (GA)	2022-08-31 (GA)	v2.1 (GA)
Extraktion von Schrifteigenschaften	Add-On	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Formelextraktion	Add-On	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Hochauflösende Extraktion	Add-On	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Barcodeextraktion	Kostenlos	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Spracherkennung	Kostenlos	✔️	✔️	Nicht verfügbar	Nicht verfügbar
Schlüssel-Werte-Paare	Kostenlos	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Abfragefelder	Add-On*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar
Durchsuchbare PDF	Add-On*	✔️	Nicht verfügbar	Nicht verfügbar	Nicht verfügbar

Funktionen der Modellanalyse

Modell-ID	Inhaltsextraktion	Abfragefelder	Absätze	Absatzrollen	Auswahlmarkierungen	Tabellen	Schlüssel-Werte-Paare	Languages	Barcodes	Dokumentanalyse	Formeln*	Schriftstil*	Hohe Auflösung*	Durchsuchbare PDF
`prebuilt-read`	✓		✓					O	O		O	O	O	O
`prebuilt-layout`	✓	✓	✓	✓	✓	✓	O	O	O		O	O	O
`prebuilt-contract`	✓	✓	✓	✓	✓			O	O	✓	O	O
`prebuilt-healthInsuranceCard.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-idDocument`	✓	✓						O	O	✓	O	O	O
`prebuilt-invoice`	✓	✓			✓	✓	O	O	O	✓	O	O	O
`prebuilt-receipt`	✓	✓						O	O	✓	O	O	O
`prebuilt-marriageCertificate.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-creditCard`	✓	✓						O	O	✓	O	O	O
`prebuilt-check.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-payStub.us`	✓	✓						O	O	✓	O	O	O
`prebuilt-bankStatement`	✓	✓						O	O	✓	O	O	O
`prebuilt-mortgage.us.1003`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1004`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1005`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.1008`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-mortgage.us.closingDisclosure`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w2`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.w4`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1040` (verschiedene)	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1095A`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1095C`	✓	✓						O	O	✓	O	O	O
`prebuilt-tax.us.1098`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098E`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1098T`	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099` (verschiedene)	✓	✓			✓			O	O	✓	O	O	O
`prebuilt-tax.us.1099SSA`	✓	✓						O	O	✓	O	O	O
`{ customModelName }`	✓	✓	✓	✓	✓	✓		O	O	✓	O	O	O

✓ – Aktiviert
O – Optional
* – Durch Premium-Features entstehen zusätzliche Kosten

Abfragefelder werden anders berechnet als die anderen Add-On-Features. Weitere Informationen finden Sie unter Preise.

Begrenzungsrahmen- und Polygonkoordinaten

Ein Begrenzungsrahmen (polygon in v3.0 und höheren Versionen) ist ein abstraktes Rechteck, das Textelemente in einem Dokument umgibt. Ein Begrenzungsrahmen wird als Referenzpunkt für die Objekterkennung verwendet.

Der Begrenzungsrahmen gibt die Position mithilfe einer x- und y-Koordinatenebene an, die als Array von vier numerischen Paaren dargestellt wird. Jedes Paar stellt eine Ecke des Felds in der folgenden Reihenfolge dar: oben links, oben rechts, unten rechts, unten links.
Bildkoordinaten werden in Pixel angegeben. Bei einer PDF-Datei werden die Koordinaten in Zoll angegeben.

Sprachunterstützung

Die universellen Modelle in Dokument Intelligenz, die auf Deep Learning basieren, unterstützen viele Sprachen. Die Modelle können mehrsprachigen Text aus Ihren Bildern und Dokumenten extrahieren, einschließlich Textzeilen mit gemischten Sprachen. Die Sprachunterstützung variiert je nach Funktionalität des Dokument Intelligenz-Diensts. Eine umfassende Liste finden Sie in den folgenden Artikeln:

Regionale Verfügbarkeit

Dokument Intelligenz ist in vielen der mehr als 60 globalen Azure-Infrastrukturregionen allgemein verfügbar.

Informationen zum Auswählen der Region, die für Sie und Ihre Kunden am besten geeignet ist, finden Sie unter Azure-Regionen.

Modelldetails

In diesem Abschnitt wird die Ausgabe beschrieben, die Sie von jedem Modell erwarten können. Sie können die Ausgabe der meisten Modelle mit Add-On-Features erweitern.

OCR auslesen

Die Lese-API verwendet optische Zeichenerkennung (OCR) zum Analysieren und Extrahieren von Zeilen und Wörtern, deren Speicherorten, erkannten Sprachen und Handschriftstil, falls erkannt.

Dieses Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Beispieldokuments, das mithilfe von Document Intelligence Studio Read verarbeitet wird

Weitere Informationen: Lesemodell

Layoutanalyse

Das Layoutanalysemodell analysiert und extrahiert Text, Tabellen, Auswahlmarkierungen und andere Strukturelemente wie Titel, Abschnittsüberschriften, Seitenkopfzeilen und Seitenfußzeilen.

Dieses Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Beispielzeitungsseite, die mithilfe von Document Intelligence Studio verarbeitet wird

Mehr erfahren: Layoutmodell

Krankenversicherungskarte

Das Krankenversicherungskartenmodell kombiniert leistungsstarke OCR-Funktionen mit Deep Learning-Modellen, um wichtige Informationen aus US-Krankenversicherungskarten zu analysieren und zu extrahieren.

Dieses Beispiel für eine US-Krankenversicherungskarte wurde mithilfe von Document Intelligence Studio verarbeitet.

Weitere Informationen: Modell der Krankenversicherungskarte

US-Steuerdokumente

Die US-Steuerdokumentmodelle analysieren und extrahieren Schlüsselfelder und Positionen aus einer ausgewählten Gruppe von Steuerdokumenten. Die API unterstützt die Analyse von englischsprachigen US-Steuerdokumenten verschiedener Formate und Qualität, einschließlich per Smartphone erfasster Bilder, gescannter Dokumente und digitaler PDFs. Die folgenden Modelle werden derzeit unterstützt:

Modell	BESCHREIBUNG	Modell-ID
US Tax W-2	Extrahieren Sie Details zur steuerpflichtigen Ausgleichszahlung.	`prebuilt-tax.us.w2`
US Tax W-4	Extrahieren Sie Details zur steuerpflichtigen Ausgleichszahlung.	`prebuilt-tax.us.w4`
US Tax 1040	Extrahieren von Details zu Hypothekenzinsen.	`prebuilt-tax.us.1040` (Variationen)
US Tax 1095	Extrahieren Sie Krankenversicherungsdetails.	`prebuilt-tax.us.1095` (Variationen)
US Tax 1098	Extrahieren von Details zu Hypothekenzinsen.	`prebuilt-tax.us.1098` (Variationen)
US Tax 1099	Extrahieren von Einnahmen aus anderen Quellen als dem Arbeitgeber.	`prebuilt-tax.us.1099` (Variationen)

Dieses W-2-Beispieldokument wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: W-2-Beispieldokument

Weitere Informationen: Steuerdokumentmodelle

US-Hypothekendokumente

Die Modelle für US-Hypothekendokumente analysieren und extrahieren Schlüsselfelder, einschließlich Darlehens-, Kredit- und Immobilieninformationen aus einer ausgewählten Gruppe von Hypothekendokumenten. Die API unterstützt die Analyse von englischsprachigen US-Hypothekendokumenten verschiedener Formate und Qualität, einschließlich per Smartphone erfasster Bilder, gescannter Dokumente und digitaler PDFs. Die folgenden Modelle werden derzeit unterstützt:

Modell	BESCHREIBUNG	Modell-ID
1003 Endbenutzer-Lizenzvertrag	Extrahieren von Informationen zu Darlehen, Darlehensnehmer, Immobilien.	`prebuilt-mortgage.us.1003`
1004 Einheitlicher Wohnimmobilienbewertungsbericht (URAR)	Extrahieren von Informationen zu Darlehen, Darlehensnehmer, Immobilien.	`prebuilt-mortgage.us.1004`
Überprüfung der Beschäftigung 1005	Extrahieren von Informationen zu Darlehen, Darlehensnehmer, Immobilien.	`prebuilt-mortgage.us.1005`
Zusammenfassungsdokument 1008	Extrahieren von Informationen zu Darlehensnehmer, Verkäufer, Immobilie, Hypotheken und Absicherung.	`prebuilt-mortgage.us.1008`
Offenlegung des Abschlusses	Extrahieren von Informationen zu Abschluss, Transaktionskosten und Kreditdetails.	`prebuilt-mortgage.us.closingDisclosure`

Dieses Beispiel für ein Dokument zur Offenlegung des Abschlusses wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Beispiel für eine Abschlussoffenlegung

Weitere Informationen: Modelle für Hypothekendokumente

Vertrag

Das Vertragsmodell analysiert und extrahiert Schlüsselfelder und Zeilenelemente aus Vertragsvereinbarungen, einschließlich Parteien, Gerichtsbarkeiten, Vertrags-IDs und Titeln. Das Modell unterstützt derzeit englischsprachige Vertragsdokumente.

Dieser Beispielvertrag wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Vertragsmodellextraktion mit Document Intelligence Studio

Weitere Informationen: Vertragsmodell

US-Bankscheck

Das Vertragsmodell analysiert und extrahiert Schlüsselfelder aus US-Bankschecks, einschließlich Scheckdetails, Kontodetails, Betrag und Memo.

Dieses Beispiel für einen Bankscheck wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Bankscheck-Modellextraktion mit Document Intelligence Studio.

Weitere Informationen: Vertragsmodell

US-Bankauszug

Das Bankauszugsmodell analysiert und extrahiert Schlüsselfelder und Einzelposten aus US-Bankauszügen, Kontonummern, Bankverbindungen, Auszugsdetails und Transaktionsdetails.

Dieses Beispiel für einen Bankauszug wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Extraktion des Bankauszugsmodells anhand von Document Intelligence Studio.

Weitere Informationen: Vertragsmodell

payStub

Das payStub-Modell analysiert und extrahiert Schlüsselfelder und Zeilenelemente aus Dokumenten und Dateien mit Informationen zu Gehaltsabrechnungen.

Dieses Beispiel für eine Lohnabrechnung wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: payStub-Modellextraktion mit Document Intelligence Studio.

Weitere Informationen: Vertragsmodell

Rechnung

Das Rechnungsmodell automatisiert die Verarbeitung von Rechnungen, um Kundennamen, Abrechnungsadresse, Fälligkeitsdatum und fälliger Betrag, Rechnungspositionen und andere Schlüsseldaten zu extrahieren.

Diese Beispielrechnung wurde mithilfe von Document Intelligence Studio verarbeitet.

Mehr erfahren: Rechnungsmodell

Rechnung

Verwenden Sie das Belegmodell, um Verkaufsquittungen auf Händlernamen, Datumsangaben, Artikelpositionen, Mengen und Summen aus gedruckten und handschriftlichen Belegen zu scannen. Die Version v3.0 unterstützt auch die Verarbeitung einseitiger Hotelbelege.

Dieser Beispielbeleg wurde mithilfe von Document Intelligence Studio verarbeitet.

Mehr erfahren: Eingangsmodell

Identitätsdokument

Mit dem Identitätsdokumentmodell (ID) können Sie US-Führerscheine (alle 50 Bundesstaaten und District of Columbia) und Seiten mit biografischen Angaben aus internationalen Reisepässen (ohne Visa und andere Reisedokumente) verarbeiten, um wichtige Felder zu extrahieren.

Dieses Beispiel für einen US-Führerschein wurde mithilfe von Document Intelligence Studio verarbeitet.

Mehr erfahren: Identitätsdokumentmodell

Heiratsurkunde

Verwenden Sie das Modell für Heiratsurkunden, um US-Heiratsurkunden zu verarbeiten und Schlüsselfelder zu extrahieren, u. a. Personen, Datum und Ort.

Dieses Beispiel für eine US-Heiratsurkunde wurde mit Document Intelligence Studio verarbeitet.

Mehr erfahren: Identitätsdokumentmodell

Kreditkarte

Verwenden Sie das Kreditkartenmodell, um Kredit- und Debitkarten zum Extrahieren von Schlüsselfeldern zu verarbeiten.

Dieses Beispiel für eine Kreditkarte wurde mithilfe von Document Intelligence Studio verarbeitet.

Mehr erfahren: Identitätsdokumentmodell

Benutzerdefinierte Modelle

Benutzerdefinierte Modelle lassen sich allgemein in zwei Typen unterteilen. Benutzerdefinierte Klassifizierungsmodelle, die die Klassifizierung eines „Dokumenttyps“ unterstützen, und benutzerdefinierte Extraktionsmodelle, die ein definiertes Schema aus einem bestimmten Dokumenttyp extrahieren können.

Diagramm: von benutzerdefinierten Modellen und zugeordneten Modellerstellungsmodi

Benutzerdefinierte Dokumentmodelle analysieren und extrahieren Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Sie erkennen Formularfelder innerhalb Ihrer unterschiedlichen Inhalte und extrahieren Schlüssel-Wert-Paare sowie Tabellendaten. Für den Anfang benötigen Sie lediglich ein Beispiel des Formulartyps.

Version v3.0 und höher der benutzerdefinierten Modelle unterstützt die Signaturerkennung in benutzerdefinierten Vorlagen (Formularen) sowie seitenübergreifende Tabellen in Vorlagenmodellen und neuronalen Modellen. Die Signaturerkennung sucht nach einer vorhandenen Signatur, nicht nach der Identität der Person, die das Dokument signiert. Wenn das Modell unsigniert für die Signaturerkennung zurückgibt, hat das Modell keine Signatur im definierten Feld gefunden.

Dieses Beispiel für eine benutzerdefinierte Vorlage wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Analyse eines benutzerdefinierten Formulars durch Dokument Intelligenz

Mehr erfahren: Benutzerdefiniertes Modell

Benutzerdefinierte Extraktion

Es sind zwei Typen des benutzerdefinierten Extraktionsmodells verfügbar: benutzerdefinierte Vorlage und benutzerdefinierte neuronale Vorlage. Um ein benutzerdefiniertes Extraktionsmodell zu erstellen, beschriften Sie ein Dataset von Dokumenten mit den Werten, die Sie extrahieren möchten, und trainieren das Modell für das beschriftete Dataset. Zunächst benötigen Sie lediglich fünf Beispiele desselben Formular- oder Dokumenttyps.

Dieses Beispiel für eine benutzerdefinierte Extraktion wurde mithilfe von Document Intelligence Studio verarbeitet.

Screenshot: Analyse eines benutzerdefinierten Extraktionsmodells in Document Intelligence Studio

Weitere Informationen: Benutzerdefiniertes Vorlagenmodell

Weitere Informationen: Benutzerdefiniertes neuronales Modell

Benutzerdefinierter Klassifizierer

Mit dem benutzerdefinierten Klassifizierungsmodell können Sie den Dokumenttyp identifizieren, bevor Sie das Extraktionsmodell aufrufen. Das Klassifizierungsmodell ist ab API-Version 2023-07-31 (GA) verfügbar. Zum Trainieren eines benutzerdefinierten Klassifizierungsmodells sind mindestens zwei verschiedene Klassen und mindestens fünf Beispiele pro Klasse erforderlich.

Weitere Informationen: Benutzerdefiniertes Klassifizierungsmodell

Zusammengesetzte Modelle

Ein zusammengestelltes Modell wird erstellt, indem eine Sammlung benutzerdefinierter Modelle verwendet und zu einem einzigen Modell zusammengesetzt wird, das auf Ihren Formulartypen basiert. In einem zusammengesetzten Modell werden verschiedene benutzerdefinierten Modelle kombiniert und dann mit einer einzigen Modell-ID aufgerufen. Sie können einem einzelnen zusammengestellten Modell bis zu 200 trainierte benutzerdefinierte Modelle zuweisen.

Dieses Beispiel für ein zusammengesetztes Modell befindet sich in Document Intelligence Studio.

Screenshot: Bereich „Zusammensetzen eines benutzerdefinierten Modells“ in Document Intelligence Studio

Mehr erfahren: Benutzerdefiniertes Modell

Eingabeanforderungen

Die folgenden Dateiformate werden unterstützt.

Modell	PDF	Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen	✔	✔	✔
Layout	✔	✔	✔
Allgemeines Dokument	✔	✔
Vordefiniert	✔	✔
Benutzerdefinierte Extraktion	✔	✔
Benutzerdefinierte Klassifizierung	✔	✔	✔

Fotos und Scans: Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.)
Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen (S0) und 4 MB für den kostenlosen (F0) Tarif.
Bildgröße: Die Größe muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Kennwortsperren: Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Texthöhe: Die Mindesthöhe des zu extrahierenden Textes beträgt 12 Pixel bei einem Bild mit 1024 x 768 Pixeln. Diese Abmessung entspricht etwa 8-Punkt-Text bei 150 Punkten pro Zoll.
Benutzerdefiniertes Modelltraining: Für das Training des benutzerdefinierten Modells beträgt die maximale Anzahl von Seiten für Trainingsdaten 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Benutzerdefiniertes Extraktionsmodeltranining: Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
Benutzerdefiniertes Klassifizierungsmodeltraining: Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten 1 GB mit einem Maximum von 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.
Office-Dateitypen (DOCX, XLSX, PPTX): Eine Zeichenfolge kann maximal 8 Millionen Zeichen haben.

Hinweis

Das Tool für die Beschriftung von Beispielen unterstützt das BMP-Dateiformat nicht. Die Einschränkung ergibt sich aus dem Tool und nicht aus dem Dokument Intelligenz-Dienst.

Versions-Migration

Erfahren Sie, wie Sie Dokument Intelligenz v3.0 in Ihren Anwendungen verwenden können, indem Sie die Schritte im Migrationsleitfaden für Dokument Intelligenz v3.1 befolgen.

Modell	BESCHREIBUNG
Dokumentanalyse
Layout	Extrahiert Text- und Layoutinformationen aus Dokumenten.
Vordefiniert
Rechnung	Extrahieren Sie wichtige Informationen aus englisch- und spanischsprachigen Rechnungen.
Beleg	Extrahieren Sie wichtige Informationen aus englischsprachigen Belegen.
ID-Dokument	Extrahieren Sie wichtige Informationen aus US-Führerscheinen und internationalen Reisepässen.
Visitenkarte	Extrahieren Sie wichtige Informationen aus englischsprachigen Visitenkarten.
Benutzerdefiniert
Benutzerdefiniert	Extrahieren Sie Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Benutzerdefinierte Modelle werden speziell für Ihre individuellen Daten und Anwendungsfälle trainiert.
Zusammengestellt	Erstellt eine Sammlung benutzerdefinierter Modelle und weist sie einem einzelnen Modell zu, das aus Ihren Formulartypen erstellt wurde.

Layout

Die Layout-API analysiert und extrahiert Text, Tabellen und Kopfzeilen, Auswahlmarkierungen und Strukturinformationen aus Dokumenten.

Dieses Beispieldokument wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Layoutanalyse mithilfe des Tools für die Beschriftung von Beispielen

Mehr erfahren: Layoutmodell

Rechnung

Das Rechnungsmodell analysiert und extrahiert Schlüsselinformationen aus Verkaufsrechnungen. Die API analysiert Rechnungen in verschiedenen Formaten und extrahiert Schlüsselinformationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälliger Betrag.

Diese Beispielrechnung wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Analyse einer Beispielrechnung mithilfe des Tools für die Beschriftung von Beispielen

Mehr erfahren: Rechnungsmodell

Rechnung

Das Belegmodell analysiert und extrahiert Schlüsselinformationen aus gedruckten und handschriftlichen Verkaufsbelegen (Quittungen).

Dieser Beispielbeleg wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Mehr erfahren: Eingangsmodell

ID-Dokument

Das ID-Dokumentmodell analysiert und extrahiert wichtige Informationen aus den folgenden Dokumenten:

US-Führerscheine (alle 50 Bundesstaaten und District of Columbia)
Seiten mit persönlichen Daten aus internationalen Reisepässen (mit Ausnahme von Visa und anderen Reisedokumenten). Die API analysiert und extrahiert Identitätsdokumente.

Dieses Beispiel für einen US-Führerschein wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Beispiel für einen Personalausweis

Mehr erfahren: Identitätsdokumentmodell

Visitenkarte

Das Visitenkartenmodell analysiert und extrahiert Schlüsselinformationen aus Visitenkartenbildern.

Dieses Beispiel für eine Visitenkarte wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Beispiel für eine Visitenkarte

Mehr erfahren: Visitenkartenmodell

Benutzerdefiniert

Benutzerdefinierte Modelle analysieren und extrahieren Daten aus Formularen und Dokumenten, die für Ihr Unternehmen spezifisch sind. Bei der API handelt es sich um ein maschinelles Lernprogramm, das darauf trainiert ist, Formularfelder innerhalb Ihrer unterschiedlichen Inhalte zu erkennen und Schlüssel-Wert-Paare sowie Tabellendaten zu extrahieren. Für den Anfang benötigen Sie lediglich fünf Beispiele desselben Formulartyps. Sie können Ihr benutzerdefiniertes Modell mit oder ohne beschriftete Datasets trainieren.

Dieses Beispiel für ein benutzerdefiniertes Modell wurde mit dem Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Analyse des Bereichs „benutzerdefiniertes Formular“ durch das Dokument Intelligenz-Tool

Mehr erfahren: Benutzerdefiniertes Modell

Zusammengestelltes benutzerdefiniertes Modell

Ein zusammengestelltes Modell wird erstellt, indem eine Sammlung benutzerdefinierter Modelle verwendet und zu einem einzigen Modell zusammengesetzt wird, das auf Ihren Formulartypen basiert. In einem zusammengesetzten Modell werden verschiedene benutzerdefinierten Modelle kombiniert und dann mit einer einzigen Modell-ID aufgerufen. Sie können einem einzelnen zusammengestellten Modell bis zu 100 trainierte benutzerdefinierte Modelle zuweisen.

Dieser zusammengesetzte Modellbereich wurde mithilfe des Tool für die Beschriftung von Beispielen verarbeitet.

Screenshot: Bereich „Zusammensetzen eines benutzerdefinierten Modells“ in Document Intelligence Studio

Mehr erfahren: Benutzerdefiniertes Modell

Extrahieren von Modelldaten

Modell	Textextraktion	Auswahlmarkierungen	Tabellen	Absätze	Absatzrollen	Schlüssel-Werte-Paare	Fields
Layout	✓	✓	✓	✓	✓
Rechnung	✓	✓	✓	✓		✓	✓
Beleg	✓			✓			✓
Ausweisdokument	✓			✓			✓
Visitenkarte	✓			✓			✓
Benutzerdefiniertes Formular	✓	✓	✓	✓			✓

Eingabeanforderungen

Die folgenden Dateiformate werden unterstützt.

Modell	PDF	Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen	✔	✔	✔
Layout	✔	✔	✔
Allgemeines Dokument	✔	✔
Vordefiniert	✔	✔
Benutzerdefinierte Extraktion	✔	✔
Benutzerdefinierte Klassifizierung	✔	✔	✔

Fotos und Scans: Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.)
Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen (S0) und 4 MB für den kostenlosen (F0) Tarif.
Bildgröße: Die Größe muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Kennwortsperren: Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Texthöhe: Die Mindesthöhe des zu extrahierenden Textes beträgt 12 Pixel bei einem Bild mit 1024 x 768 Pixeln. Diese Abmessung entspricht etwa 8-Punkt-Text bei 150 Punkten pro Zoll.
Benutzerdefiniertes Modelltraining: Für das Training des benutzerdefinierten Modells beträgt die maximale Anzahl von Seiten für Trainingsdaten 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Benutzerdefiniertes Extraktionsmodeltranining: Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
Benutzerdefiniertes Klassifizierungsmodeltraining: Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten 1 GB mit einem Maximum von 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.
Office-Dateitypen (DOCX, XLSX, PPTX): Eine Zeichenfolge kann maximal 8 Millionen Zeichen haben.

Hinweis

Das Tool für die Beschriftung von Beispielen unterstützt das BMP-Dateiformat nicht. Die Einschränkung ergibt sich aus dem Tool und nicht aus Dokument Intelligenz.

Versions-Migration

Erfahren Sie, wie Sie Dokument Intelligenz v3.0 in Ihren Anwendungen verwenden können, indem Sie die Schritte im Migrationsleitfaden für Dokument Intelligenz v3.1 befolgen.

Verarbeiten Sie Ihre eigenen Formulare und Dokumente mithilfe von Document Intelligence Studio.
Gehen Sie den Schnellstart für Document Intelligence durch, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.

Verarbeiten Sie mit dem Tool für die Beschriftung von Beispielen von Dokument Intelligenz Ihre eigenen Formulare und Dokumente.
Gehen Sie den Schnellstart für Document Intelligence durch, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-20

Freigeben über

Dokumentverarbeitungsmodelle

Übersicht über das Modell

Latency

Add-On-Funktion

Funktionen der Modellanalyse

Begrenzungsrahmen- und Polygonkoordinaten

Sprachunterstützung

Regionale Verfügbarkeit

Modelldetails

OCR auslesen

Layoutanalyse

Krankenversicherungskarte

US-Steuerdokumente

US-Hypothekendokumente

Vertrag

US-Bankscheck

US-Bankauszug

payStub

Rechnung

Rechnung

Identitätsdokument

Heiratsurkunde

Kreditkarte

Benutzerdefinierte Modelle

Benutzerdefinierte Extraktion

Benutzerdefinierter Klassifizierer

Zusammengesetzte Modelle

Eingabeanforderungen

Versions-Migration

Layout

Rechnung

Rechnung

ID-Dokument

Visitenkarte

Benutzerdefiniert

Zusammengestelltes benutzerdefiniertes Modell

Extrahieren von Modelldaten

Eingabeanforderungen

Versions-Migration

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen