Freigeben über


Dokument Intelligenz-Rechnungsmodell

Dieser Inhalt gilt für:HäkchenVersion 4.0 (GA) | Vorherige Versionen:Blaues HäkchenVersion 3.1 (GA)Blaues HäkchenVersion 3.0 (GA)Blaues HäkchenVersion 2.1 (GA)

#::: moniker-end

Dieser Inhalt gilt für:HäkchenVersion 3.1 (GA) | Aktuelle Version:Lila HäkchenVersion 4.0 (GA) | Vorherige Versionen:Blaues HäkchenVersion 3.0Blaues HäkchenVersion 2.1

Dieser Inhalt gilt für:HäkchenVersion 3.0 (GA) | Neueste Versionen:Lila HäkchenVersion 4.0 (GA)Lila Häkchenv3.1 | Vorherige Version:Blaues HäkchenVersion 2.1

Dieser Inhalt gilt für:Häkchenv2.1 | Letzte Version:Blaues Häkchenv4.0 (GA)

Das Rechnungsmodell von Dokument Intelligenz verwendet leistungsstarke OCR-Funktionen (Optical Character Recognition, optische Zeichenerkennung), um wichtige Felder und Rechnungspositionen aus Verkaufsrechnungen, Stromrechnungen und Bestellungen zu analysieren und zu extrahieren. Rechnungen können viele verschiedene Formate und Qualitätsmerkmale aufweisen, beispielsweise mit dem Handy fotografierte Bilder, gescannte Dokumente und digitale PDF-Dateien. Die API analysiert den Rechnungtext, extrahiert Schlüsselinformationen wie Kundenname, Rechnungsadresse, Fälligkeitsdatum und fälliger Betrag und gibt eine strukturierte JSON-Datendarstellung zurück. Das Modell unterstützt derzeit Rechnungen in 27 Sprachen.

Unterstützte Dokumenttypen:

  • Invoices
  • Stromrechnungen
  • Aufträge
  • Bestellungen

Automatisierte Rechnungsverarbeitung

Automatisierte Rechnungsverarbeitung ist der Prozess des Extrahierens von Schlüsselfeldern für accounts payable aus Abrechnungskontodokumenten. Die extrahierten Daten umfassen Zeilenposten aus Rechnungen, die in Ihre Ap-Workflows (Kreditorenbuchhaltung) für Überprüfungen und Zahlungen integriert sind. In der Vergangenheit wurde der Kreditorenbuchhaltungsprozess manuell vollzogen und war daher sehr zeitaufwändig. Die genaue Extraktion wesentlicher Daten aus Rechnungen ist in der Regel der erste und einer der wichtigsten Schritte im Prozess der Rechnungsautomatisierung.

Beispielrechnung, die mit Dokument Intelligenz Studio verarbeitet wurde:

Screenshot: in Dokument Intelligenz Studio analysierte Beispielrechnung

Beispielrechnung, die mit dem Tool zur Beschriftung von Beispielen in Dokument Intelligenz Studio verarbeitet wurde:

Screenshot einer Beispielrechnung.

Entwicklungsoptionen

Dokument Intelligenz Version 4.0: 2024-11-30 (GA) unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST-API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Dokument-Intelligence v3.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST-API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Dokument-Intelligence v3.0 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion Ressourcen Modell-ID
Rechnungsmodell Document Intelligence Studio
REST-API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Vordefinierte Rechnung

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Funktion Ressourcen
Rechnungsmodell Document Intelligence-Bezeichnungstool
REST-API
Clientbibliothek SDK
Document Intelligence Docker-Container

Eingabeanforderungen

Die folgenden Dateiformate werden unterstützt.

Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen
Layout
Allgemeines Dokument
Vordefiniert
Benutzerdefinierte Extraktion
Benutzerdefinierte Klassifizierung
  • Fotos und Scans: Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
  • PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.)
  • Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für den kostenpflichtigen (S0) und 4 MB für den kostenlosen (F0) Tarif.
  • Bildgröße: Die Größe muss zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
  • Kennwortsperren: Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
  • Texthöhe: Die Mindesthöhe des zu extrahierenden Textes beträgt 12 Pixel bei einem Bild mit 1024 x 768 Pixeln. Diese Abmessung entspricht etwa 8-Punkt-Text bei 150 Punkten pro Zoll.
  • Benutzerdefiniertes Modelltraining: Für das Training des benutzerdefinierten Modells beträgt die maximale Anzahl von Seiten für Trainingsdaten 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
  • Benutzerdefiniertes Extraktionsmodeltranining: Für das Training benutzerdefinierter Extraktionsmodelle beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neuronale Modell.
  • Benutzerdefiniertes Klassifizierungsmodeltraining: Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten 1 GB mit einem Maximum von 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Trainingsdaten 2 GB bei maximal 10.000 Seiten.
  • Office-Dateitypen (DOCX, XLSX, PPTX): Eine Zeichenfolge kann maximal 8 Millionen Zeichen haben.
  • Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
  • Unterstützt PDF und TIFF, bis zu 2.000 Seiten werden verarbeitet. Bei Abonnements im Free-Tarif werden nur die ersten beiden Seiten verarbeitet.
  • Die unterstützte Dateigröße muss weniger als 50 MB betragen und die Abmessungen müssen mindestens 50 x 50 Pixel und dürfen höchstens 10.000 x 10.000 Pixel betragen.

Extrahieren von Rechnungsmodelldaten

Erfahren Sie, wie Daten, einschließlich Kundeninformationen, Herstellerdetails und Positionen, aus Rechnungen extrahiert werden. Sie benötigen die folgenden Ressourcen:

  • Ein Azure-Abonnement (Sie können ein kostenloses Abonnement erstellen).

  • Eine Dokument Intelligenz-Instanz im Azure-Portal. Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren. Wählen Sie nach der Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, um Ihren Schlüssel und Endpunkt abzurufen.

Screenshot: Schlüssel und Endpunkt im Azure-Portal

  1. Wählen Sie auf der Startseite von Document Intelligence StudioRechnungen aus.

  2. Sie können die Musterrechnung analysieren oder Ihre eigenen Dateien hochladen.

  3. Wählen Sie die Schaltfläche Analyse ausführen aus, und konfigurieren Sie bei Bedarf die Analyseoptionen:

    Screenshot der Schaltflächen „Analyse ausführen“ und „Analyseoptionen“ im Document Intelligence Studio.

Dokument Intelligenz-Tool für die Beschriftung von Beispielen

  1. Navigieren Sie zum Dokument Intelligenz-Beispieltool.

  2. Wählen Sie auf der Startseite des Beispieltools die Kachel Use prebuilt model to get data (Vordefiniertes Modell zum Abrufen von Daten verwenden) aus.

    Screenshot: Vorgang zur Ergebnisanalyse des Layoutmodells.

  3. Wählen Sie im Dropdownfenster den zu analysierenden Formulartyp aus.

  4. Wählen Sie aus den folgenden Optionen eine URL zu der Datei aus, die Sie analysieren möchten:

  5. Wählen Sie im Feld Quelle die URL aus dem Dropdownmenü aus, fügen Sie die ausgewählte URL ein, und wählen Sie die Schaltfläche Abrufen aus.

    Screenshot des Dropdown-Menüs für den Quellort.

  6. Fügen Sie im Feld Dokument Intelligenz-Dienstendpunkt den Endpunkt ein, den Sie mit Ihrem Dokument Intelligenz-Abonnement erhalten haben.

  7. Fügen Sie im Feld Schlüssel den Schlüssel ein, den Sie von Ihrer Dokument Intelligenz-Ressource erhalten haben.

    Screenshot: Dropdownmenü zum Auswählen des Formulartyps.

  8. Wählen Sie Run Analysis (Analyse ausführen) aus. Das Dokument Intelligenz-Tool für die Beschriftung von Beispielen ruft die „Analyze Prebuilt“-API auf und analysiert das Dokument.

  9. Zeigen Sie die Ergebnisse an. Sehen Sie sich die extrahierten Schlüssel-Wert-Paare, die Positionen, den extrahierten markierten Text und die erkannten Tabellen an.

    Screenshot: Vorgang der Ergebnisanalyse des Layoutmodells.

Hinweis

Das Tool für die Beschriftung von Beispielen unterstützt nicht das BMP-Dateiformat. Dies ist eine Einschränkung des Tools, nicht des Dokument Intelligenz-Diensts.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sieauf der Seite Sprachunterstützung: vorgefertigte Modelle.

Feldextraktion

  • Weitere Informationen zu unterstützten Feldern für die Dokumentextraktion finden Sie in unserem GitHub-Beispielrepository auf der Seite Rechnungsmodellschema.

  • Die extrahierten Schlüssel-Wert-Paare der Rechnung und die Rechnungspositionen befinden sich im Abschnitt documentResults der JSON-Ausgabe.

Schlüssel-Wert-Paare

Das vordefinierte Rechnungsmodell unterstützt die optionale Rückgabe von Schlüssel-Wert-Paaren. Standardmäßig ist die Rückgabe von Schlüssel-Wert-Paaren deaktiviert. Schlüssel-Wert-Paare sind bestimmte Bereiche innerhalb der Rechnung, die eine Beschriftung oder einen Schlüssel und die zugehörige Antwort oder den zugehörigen Wert identifizieren. In einer Rechnung könnten diese Paare die Beschriftung und der Wert sein, den der Benutzer für dieses Feld oder die Telefonnummer eingegeben hat. Das KI-Modell wird trainiert, um identifizierbare Schlüssel und Werte basierend auf einer Vielzahl von Dokumenttypen, Formaten und Strukturen zu extrahieren.

Schlüssel können auch isoliert existieren, wenn das Modell feststellt, dass ein Schlüssel ohne zugehörigen Wert vorhanden ist, oder wenn optionale Felder verarbeitet werden. Beispielsweise kann ein Feld für den zweiten Vornamen in einigen Fällen in einem Formular leer gelassen werden. Schlüssel-Wert-Paare sind immer Textabschnitte, die im Dokument enthalten sind. Bei Dokumenten, in denen derselbe Wert auf unterschiedliche Weise beschrieben wird, z. B. Kunde/Benutzer, ist der zugehörige Schlüssel entweder Kunde oder Benutzer (je nach Kontext).

JSON-Ausgabe

Die JSON-Ausgabe besteht aus drei Teilen:

  • Der Knoten "readResults" enthält den gesamten erkannten Text und alle erkannten Auswahlmarkierungen. Der Text ist nach Seite, dann nach Zeile und dann nach einzelnen Wörtern sortiert.
  • Der Knoten "pageResults" enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter in readResults extrahiert wurden.
  • Der Knoten "documentResults" enthält die spezifischen Werte und Rechnungspositionen der Rechnung, die vom Modell ermittelt wurden. Hier finden Sie alle Felder aus der Rechnung, wie z B. Rechnungs-ID, Lieferadresse, Rechnungsadresse, Kunde, Gesamtsumme, Rechnungspositionen und viele mehr.

Migrationsleitfaden

#::: moniker-end

Nächste Schritte