Feldextraktion und Zuordnung
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Die Feldextraktion ist der Vorgang der Textausgabe von OCR und das Zuordnen einzelner Textwerte zu bestimmten, bezeichneten Datenfeldern, die aussagekräftigen Geschäftsinformationen entsprechen. OcR teilt Ihnen zwar mit , welcher Text in einem Dokument vorhanden ist, aber die Feldextraktion teilt Ihnen mit, was dieser Text bedeutet und wo er in Ihren Geschäftssystemen gehört.
Die Feldextraktionspipeline
Die Feldextraktion folgt einer systematischen Pipeline, die die OCR-Ausgabe in strukturierte Daten transformiert.
Die Phasen des Feldextraktionsvorgangs sind:
- OCR-Ausgabeerfassung.
- Felderkennung und Kandidatenidentifikation.
- Feldabbildung und Assoziation.
- Datennormalisierung und Standardisierung.
- Integration in Geschäftsprozesse und Systeme.
Lassen Sie uns diese Phasen ausführlicher untersuchen.
Phase 1: OCR-Ausgabeaufnahme
Der Prozess beginnt mit der strukturierten Ausgabe aus der OCR-Pipeline, die Folgendes umfassen kann:
- Unformatierter Textinhalt: Die tatsächlichen Zeichen und Wörter, die aus dem Dokument extrahiert wurden
- Positionsmetadaten: Begrenzungsrahmenkoordinaten, Seitenpositionen und Informationen zur Lesereihenfolge
- Konfidenzbewertungen: Konfidenzstufen des OCR-Moduls für jedes Textelement
- Layoutinformationen: Dokumentstruktur, Zeilenumbrüche, Absatzbegrenzungen
Hinweis
Im Gegensatz zur einfachen Textverarbeitung hängt die Feldextraktion stark davon ab, wo Text im Dokument angezeigt wird, nicht nur das, was es sagt. Die Position von "12345" kann hilfreich sein, um festzustellen, ob es sich um eine Rechnungsnummer, eine Kunden-ID oder eine Telefonnummer handelt.
Phase 2: Felderkennung und Kandidatenidentifikation
In dieser Phase werden potenzielle Feldwerte in der OCR-Ausgabe identifiziert. Es gibt mehrere Ansätze, die unabhängig oder in Kombination verwendet werden können, um die wahrscheinlichen Felder in den OCR-Ergebnissen zu ermitteln.
Vorlagenbasierte Erkennung
Vorlagen für die Felderkennung basieren auf regelbasiertem Musterabgleich. Die Feldidentifikation kann mithilfe der folgenden Techniken erreicht werden:
- Vordefinierte Dokumentlayouts mit bekannten Feldpositionen und Ankerstichwörtern.
- Sucht nach Bezeichnungswertpaaren wie "Rechnungsnummer:", "Datum:", "Summe:".
- Reguläre Ausdrücke und Zeichenfolgenabgleichsalgorithmen.
Zu den Vorteilen eines vorlagenbasierten Ansatzes gehören hohe Genauigkeit für bekannte Dokumenttypen, schnelle Verarbeitung und erklärbare Ergebnisse.
Zu den Einschränkungen des Ansatzes gehören die Anforderung für die manuelle Vorlagenerstellung und die Komplexität, die durch Layoutvariationen oder Feldbenennungsinkonsistenzen verursacht wird.
Machine Learning-basierte Erkennung
Anstatt fest kodierter Logik zum Extrahieren von Feldern anhand bekannter Namen und Speicherorte können Sie einen Korpus von Beispieldokumenten verwenden, um ein maschinelles Lernmodell zu trainieren, das die Felder aufgrund erlernter Zusammenhänge extrahiert. Transformatorbasierte Modelle eignen sich insbesondere gut bei der Anwendung kontextbezogener Hinweise zur Identifizierung von Mustern und sind daher häufig die Grundlage einer Felderkennungslösung.
Zu den Schulungsansätzen für Felderkennungsmodelle für maschinelles Lernen gehören:
- Überwachtes Lernen: Trainiert auf bezeichneten Datasets mit bekannten Feldstandorten.
- Selbstüberwachtes Lernen: Vortrainiert anhand großer Dokumentkorpora, um Layoutmuster zu verstehen.
- Multi-modales Lernen: Kombiniert Text-, visuelle und positionsbezogene Features.
-
Erweiterte Modellarchitekturen, z. B.:
- Graph Neural Networks (GNNs), die räumliche Beziehungen zwischen Textelementen als Graphverbindungen modelliert.
- Aufmerksamkeitsmechanismen , die sich auf relevante Dokumentbereiche konzentrieren, wenn Feldwerte vorhergesagt werden.
- Sequenz-zu-Sequenz-Modelle , die unstrukturierte Textsequenzen in strukturierte Feldzuordnungen umwandeln.
Generative KI zur schemabasierten Extraktion
Die jüngsten Fortschritte in großen Sprachmodellen (LLMs) haben zur Entstehung von generativen KI-basierten Felderkennungstechniken geführt, die eine effizientere und effektivere Felderkennung ermöglichen:
- Promptbasierte Extraktion, bei der Sie dem LLM Dokumenttext und eine Schemadefinition bereitstellen, damit es den Text den Feldern im Schema zuordnet.
- Few-shot learning, bei dem Sie Modelle mit minimalen Beispielen trainieren können, um benutzerdefinierte Felder zu extrahieren.
- Gedankenkette, die Modelle durch schrittweise Feldidentifikationslogik führt.
Phase 3: Feldzuordnung und Verknüpfung
Nachdem Kandidatenwerte identifiziert wurden, müssen sie bestimmten Schemafeldern zugeordnet werden:
Schlüssel-Wert-Kopplungstechniken
In vielen Fällen sind Datenfelder in einem Dokument oder Formular diskrete Werte, die Schlüsseln zugeordnet werden können, z. B. den Lieferantennamen, das Datum und den Gesamtbetrag in einem Beleg oder einer Rechnung. Zu den gängigen Techniken für die Schlüsselwertpaarung gehören:
Näherungsanalyse:
- Räumliches Clustering: Gruppieren Von Textelementen in der Nähe mithilfe von Entfernungsalgorithmen.
- Lesereihenfolgeanalyse: Folgen Sie dem natürlichen Textfluss, um Beschriftungen mit Werten zu verknüpfen.
- Geometrische Beziehungen: Verwenden Sie Ausrichtungs-, Einzugs- und Positionierungsmuster.
Sprachmustererkennung:
- Benannte Entitätserkennung (NER): Identifizieren bestimmter Entitätstypen (Datumsangaben, Beträge, Namen).
- Satzteilmarkierung: Hiermit können SIe die grammatikalischen Beziehungen zwischen Bezeichnungen und Werten nachvollziehen.
- Abhängigkeitsanalyse: Analysieren syntaktischer Beziehungen im Text.
Tabellen- und strukturierte Inhaltsverarbeitung
Einige Dokumente enthalten komplexere Textstrukturen, z. B. Tabellen. Beispielsweise kann ein Beleg oder eine Rechnung eine Tabelle mit Positionen mit Spalten für den Artikelnamen, den Preis und die gekaufte Menge enthalten.
Das Vorhandensein einer Tabelle kann mithilfe mehrerer Techniken bestimmt werden, darunter:
- Spezialisierte konvolutionale neurale Netzwerkarchitekturen (CNN) für die Tabellenstrukturerkennung.
- Objekterkennungsansätze, die für die Tabellenzellidentifikation angepasst sind.
- Graphbasierte Analyseansätze, die die Tabellenstruktur als Diagrammbeziehungen zwischen Zellen modellieren.
Zum Zuordnen der Werte in den Zellen in einer Tabelle zu Feldern kann die Feldextraktionslösung eine oder mehrere der folgenden Techniken verwenden:
- Zeilen-Spalten-Zuordnung , um Tabellenzellen bestimmten Feldschemata zuzuordnen.
- Kopfzeilenerkennung zum Identifizieren von Spaltenüberschriften, um die Bedeutungen von Feldern zu verstehen.
- Hierarchische Verarbeitung zum Behandeln geschachtelter Tabellenstrukturen und Untersummen.
Konfidenzbewertung und Validierung
Die Genauigkeit der Feldextraktion hängt von vielen Faktoren ab, und die Algorithmen und Modelle, die zur Implementierung der Lösung verwendet werden, unterliegen potenziellen Fehlidentifizierungs- oder Wertinterpretationsfehlern. Um dies zu berücksichtigen, werden verschiedene Techniken verwendet, um die Genauigkeit der vorhergesagten Feldwerte zu bewerten; einschließlich:
- OCR-Konfidenz: Erben von Konfidenzergebnissen von der zugrunde liegenden Texterkennung.
- Mustervergleichsvertrauen: Bewertung basierend darauf, wie gut die Extraktion den erwarteten Mustern entspricht.
- Kontextüberprüfung: Überprüfen, ob Feldwerte im Dokumentkontext sinnvoll sind.
- Feldübergreifende Überprüfung: Überprüfen der Beziehungen zwischen extrahierten Feldern (z. B. Überprüfen, dass die Teilbeträge der Positionen die Gesamtsumme der Rechnung ergeben).
Phase 4: Datennormalisierung und Standardisierung
Unformatierte extrahierte Werte werden im Allgemeinen in konsistente Formate umgewandelt (um beispielsweise sicherzustellen, dass alle extrahierten Datumsangaben im selben Datumsformat ausgedrückt werden) und auf Gültigkeit überprüft werden.
Formatstandardisierung
Beispiele für die Formatstandardisierung, die implementiert werden können, sind:
Datumsnormalisierung:
- Formaterkennung: Identifizieren verschiedener Datumsformate (MM/TT/JJJJ, TT-MM-JJJJ usw.).
- Analysealgorithmen: Konvertieren in standardisierte ISO-Formate.
- Mehrdeutigkeitsauflösung: Behandlung von Fällen, in denen das Datumsformat unklar ist.
Währungs- und numerische Verarbeitung:
- Symbolerkennung: Behandeln Sie verschiedene Währungssymbole und Tausendertrennzeichen.
- Dezimalnormalisierung: Vereinheitlichung der Dezimalkommadarstellung über verschiedene Regionen hinweg.
- Einheitenumwandlung: Bei Bedarf zwischen verschiedenen Maßeinheiten konvertieren.
Textstandardisierung:
- Groß-/Kleinschreibungsnormalisierung: Anwenden konsistenter Groß-/Kleinschreibungsregeln.
- Codierungsstandardisierung: Behandeln unterschiedlicher Zeichencodierungen und Sonderzeichen.
- Abkürzungserweiterung: Wandeln Sie allgemeine Abkürzungen in vollständige Formulare um.
Datenüberprüfung und Qualitätssicherung
Neben der Formatierung der extrahierten Felder ermöglicht der Standardisierungsprozess eine weitere Validierung der Werte, die durch Techniken extrahiert wurden:
Regelbasierte Überprüfung:
- Formatüberprüfung: Überprüfen, ob extrahierte Werte den erwarteten Mustern entsprechen (Telefonnummern, E-Mail-Adressen).
- Bereichsüberprüfung: Stellen Sie sicher, dass numerische Werte in angemessene Grenzen fallen.
- Erforderliche Feldüberprüfung: Bestätigen Sie, dass alle pflichtpflichtigen Felder vorhanden sind.
Statistische Validierung:
- Ausreißererkennung: Identifizieren Sie ungewöhnlich hohe oder niedrige Werte, die auf Extraktionsfehler hinweisen können.
- Verteilungsanalyse: Vergleichen extrahierter Werte mit historischen Mustern.
- Dokumentübergreifende Überprüfung: Überprüfen Sie die Konsistenz in verwandten Dokumenten.
Phase 5: Integration in Geschäftsprozesse und Systeme
In der letzten Phase des Prozesses werden in der Regel die extrahierten Feldwerte in einen Geschäftsprozess oder ein System integriert:
Schemazuordnung
Die extrahierten Felder müssen möglicherweise weiter transformiert oder neu formatiert werden, damit sie mit Anwendungsschemas übereinstimmen, die für die Datenaufnahme in downstream-Systeme verwendet werden. Beispiel:
- Datenbankschemas: Zuordnen extrahierter Felder zu bestimmten Datenbankspalten und -tabellen.
- API-Nutzlasten: Formatieren von Daten für die REST-API-Nutzung durch nachgeschaltete Systeme.
- Nachrichtenwarteschlangen: Bereiten Sie strukturierte Nachrichten für die asynchrone Verarbeitung vor.
Der Schemazuordnungsprozess kann Transformationen umfassen, z. B.:
- Feldumbenennung: Zuordnung der extrahierten Feldnamen zu den Konventionen des Zielsystems.
- Datentypkonvertierung: Stellen Sie sicher, dass Werte den erwarteten Datentypen in Zielsystemen entsprechen.
- Bedingte Logik: Anwenden von Geschäftsregeln für die Feldtransformation und -ableitung.
Qualitätsmetriken und Berichterstellung
Eine weitere häufige Aufgabe nach Abschluss des Extraktionsprozesses besteht darin, die Qualität der extrahierten Daten auszuwerten und zu melden. Der Bericht kann beispielsweise Informationen wie folgende umfassen:
- Konfidenzbewertungen auf Feldebene: Individuelle Konfidenzbewertungen für jedes extrahierte Feld.
- Bewertung der Qualität auf Dokumentebene: Erfolgsmetriken für die Gesamtextraktion.
- Fehlerkategorisierung: Klassifizieren von Extraktionsfehlern nach Typ und Ursache.