Grundlegendes zu vordefinierten Modellen
Mit vordefinierten Modellen in Azure Document Intelligence können Sie Daten aus allgemeinen Formularen und Dokumenten extrahieren, ohne ihre eigenen Modelle zu trainieren.
In Ihrem Meinungsforschungsinstitut gibt es für jedes Umfrageprojekt individuelle Umfrageformulare, aber Sie verwenden auch Rechnungen und Belege, um Finanztransaktionen zu erfassen, und Sie verfügen über viele unstrukturierte Dokumente. Sie möchten wissen, wie hoch der Aufwand für die Extraktion von Namen, Adressen, Mengenangaben und weiteren Informationen aus diesen Dokumenten wäre.
Hier erfahren Sie, wie Vorgefertigte Modelle Ihnen bei der Analyse gängiger Dokumenttypen helfen können.
Was sind vordefinierte Modelle?
Der allgemeine Ansatz bei KI-Lösungen besteht darin, eine große Menge an Stichprobendaten bereitzustellen und dann ein optimiertes Modell zu trainieren, indem verschiedene Datenfeatures, Parameter und statistische Verfahren ausprobiert werden. Die Kombination, die die Werte am besten vorhersagt, die Sie interessieren, stellen das trainierte Modell dar, und Sie können dieses Modell verwenden, um Werte aus neuen Daten vorherzusagen.
Viele der Formulare, die Unternehmen tagtäglich verwenden, können einigen wenigen gängigen Typen zugeordnet werden. Die meisten Unternehmen stellen zum Beispiel Rechnungen und Belege aus oder empfangen solche Dokumente. Jedes Unternehmen, das Angestellte in den Vereinigten Staaten beschäftigt, muss das W-2-Steuererklärungsformular verwenden. Außerdem sind oft allgemeinere Dokumente vorhanden, aus denen Sie Daten extrahieren möchten. In diesen Fällen hilft Microsoft Ihnen, vorgefertigte Modelle bereitzustellen. Die vordefinierten Modelle wurden bereits mit einer großen Anzahl von Formularen des jeweiligen Zieltyps trainiert.
Wenn Sie mithilfe von Dokument Intelligenz Daten aus einem dieser gängigen Formulare oder Dokumente extrahieren möchten, können Sie ein vordefiniertes Modell verwenden und müssen kein eigenes Modell trainieren. Da Microsoft diese Modelle auf einem großen Korpus von Beispielen trainiert, können Sie davon ausgehen, dass sie genaue und zuverlässige Ergebnisse liefern, wenn sie mit ihren beabsichtigten Formen umgehen.
Mehrere der vordefinierten Modelle sind für spezifische Formulartypen trainiert:
- Rechnungsmodell: Extrahiert gängige Felder und deren Werte aus Rechnungen.
- Belegmodell: Extrahiert gängige Felder und deren Werte aus Belegen.
- US-Steuermodell. Einheitliches US-Steuermodell, das aus Formularen wie W-2, 1098, 1099 und 1040 extrahieren kann.
- ID-Dokumentmodell. Extrahiert gängige Felder und deren Werte aus US-Führerscheinen, Personalausweisen und Führerscheinen der Europäischen Union und internationalen Pässen.
- Modell für Visitenkarten: Extrahiert gängige Felder und deren Werte aus Visitenkarten.
- Krankenversicherungskartenmodell Extrahiert gängige Felder und deren Werte aus Krankenversicherungskarten.
- Heiratsurkunde. Extrahiert Informationen aus Heiratsurkunden.
- Kredit-/Debitkartenmodell. Extrahiert gängige Informationen von Bankkarten.
- Hypothekendokumente. Extrahiert Informationen aus der Offenlegung des Hypothekenabschlusses, aus dem einheitlichen Darlehensantrag für Wohnzwecke (Uniform Residential Loan Application, Formular 1003), der Schätzgutachten (Appraisal, Formular 1004), der Validierung der Beschäftigung (Validation of Employment, Formular 1005) und der einheitlichen Zusammenfassung für die Risikoübernahme und Übertragung (Uniform Underwriting and Transmittal Summary, Formular 1008).
- Bankauszugsmodell. Extrahiert Kontoinformationen, einschließlich Anfangs- und Endsaldos sowie Transaktionsdetails aus Bankauszügen.
- Lohnabrechnungsmodell. Extrahiert Löhne, Stunden, Abzüge, Nettolohn und andere gängige Lohnabrechnungsfelder.
- Scheckmodell. Extrahiert Zahlungsempfänger, Betrag, Datum und andere relevante Informationen aus Schecks.
Die übrigen Modelle sind darauf ausgelegt, Werte aus Dokumenten mit weniger spezifischen Strukturen zu extrahieren:
- Lesemodell: Extrahiert Text und Sprachen aus Dokumenten.
- Allgemeines Dokumentmodell: Extrahieren Sie Text, Schlüssel, Werte, Entitäten und Auswahlzeichen aus Dokumenten.
- Layoutmodell: Extrahiert Text- und Strukturinformationen aus Dokumenten.
Features der vordefinierten Modelle
Die vordefinierten Modelle sind so konzipiert, dass unterschiedliche Arten von Daten aus den Dokumenten und Formularen extrahiert werden, die Benutzer übermitteln. Um das richtige Modell für Ihre Anforderungen auszuwählen, müssen Sie diese Features verstehen:
- Textextraktion: Alle vordefinierten Modelle extrahieren Textzeilen und Wörter aus handschriftlichem und gedruckten Text.
- Schlüssel-Wert-Paare Viele Modelle extrahieren Textspannen innerhalb eines Dokuments, die eine Bezeichnung oder einen Schlüssel und deren Antwort oder Wert als Schlüsselwertepaare identifizieren. Ein typischer Schlüssel könnte zum Beispiel Gewicht sein, und der zugehörige Wert lautet 31 kg.
- Entitäten Text, der allgemeine, komplexere Datenstrukturen enthält, kann in Form von Entitäten extrahiert werden. Zu den Entitätstypen gehören Personen, Orte und Datumsangaben.
- Auswahlmarkierungen: Einige Modelle extrahieren Textspannen, die eine Auswahl als Auswahlzeichen angeben. Diese Markierungen umfassen Optionsfelder und Kontrollkästchen.
- Tabellen. Viele Modelle können Tabellen in gescannten Formularen extrahieren, einschließlich der in den Zellen enthaltenen Daten, der Anzahl von Spalten und Zeilen sowie der Spalten- und Zeilenüberschriften. Tabellen mit zusammengeführten Zellen werden unterstützt.
- Felder Modelle, die für einen bestimmten Formulartyp trainiert wurden, identifizieren die Werte einer festen Gruppe von Feldern. Das Rechnungsmodell umfasst zum Beispiel die Felder CustomerName und InvoiceTotal.
Beachten Sie außerdem, dass die vordefinierten Modelle für generische Dokument- und Formulartypen entworfen und trainiert wurden. Wenn Sie über einen branchenspezifischen oder einzigartigen Formulartyp verfügen, den Sie häufig verwenden, erhalten Sie durch die Verwendung eines benutzerdefinierten Modells möglicherweise zuverlässigere und besser vorhersehbare Ergebnisse. Die Entwicklung benutzerdefinierter Modelle ist jedoch zeitaufwändig, da Sie Zeit und Ressourcen investieren müssen, um die Modelle anhand von Beispielformularen zu trainieren, bevor Sie sie verwenden können. Je größer die Anzahl der Beispielformulare, die Sie für schulungen bereitstellen, desto besser ist das Modell, um Formularinhalte genau vorherzusagen.
Eingabeanforderungen
Die vorgefertigten Modelle sind flexibel, aber Sie können ihnen helfen, genaue und hilfreiche Ergebnisse zurückzugeben, indem Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung für jedes Dokument übermitteln.
Sie müssen außerdem diese Anforderungen einhalten, wenn Sie ein Formular zur Analyse übermitteln:
- Die Datei muss im JPEG-, PNG-, BMP-, TIFF- oder PDF-Format vorliegen. Darüber hinaus kann das Modell „Lesen“ Microsoft Office-Dateien akzeptieren.
- Die Datei muss im Tarif „Standard“ kleiner als 500 MB und im Free-Tarif kleiner als 4 MB sein.
- Bei Bildern müssen die Abmessungen zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
- PDF-Dokumente müssen eine Größe von weniger als 17 × 17 Zoll oder das A3-Format aufweisen.
- PDF-Dokumente dürfen nicht mit einem Kennwort geschützt sein.
Hinweis
Übermitteln Sie nach Möglichkeit PDF-Dateien mit Texteinbettung, da so Fehler bei der Zeichenerkennung vermieden werden.
PDF- und TIFF-Dateien können eine beliebige Anzahl von Seiten aufweisen, aber in der Standardebene werden nur die ersten 2.000 Seiten analysiert. Im Free-Tarif werden nur die ersten beiden Seiten analysiert.
Ausprobieren vordefinierter Modelle mit Azure Document Intelligence Studio
Azure Document Intelligence ist als Webdienst konzipiert, den Sie mithilfe von Code in Ihren benutzerdefinierten Anwendungen aufrufen können. Es ist jedoch häufig hilfreich, die Modelle zu untersuchen und wie sie sich visuell mit Ihren Formularen verhalten. Sie können solche Experimente mithilfe von Azure Document Intelligence Studio durchführen und die Benutzeroberfläche verwenden, um ihren Code zu entwerfen und zu schreiben.
Sie können alle vordefinierten Modelle in Azure Document Intelligence Studio auswählen. Microsoft stellt für jedes Modell einige Beispieldokumente zur Verfügung. Sie können aber auch Ihre eigenen Dokumente hinzufügen und diese analysieren.
Aufrufen vordefinierter Modelle mithilfe von APIs
Da Azure Document Intelligence RESTful-Webdienste implementiert, können Sie Webdienstaufrufe aus jeder Sprache verwenden, die sie unterstützt. Wenn Sie jedoch die Azure Document Intelligence-APIs von Microsoft verwenden, wird die Sicherheits- und Sitzungsverwaltung vereinfacht, und Sie müssen weniger Code schreiben.
Azure Document Intelligence ist verfügbar für:
- C# und andere .NET-Sprachen
- Java
- Python.
- JavaScript.
Wann immer Sie Azure Document Intelligence aufrufen möchten, müssen Sie beginnen, indem Sie sich mit dem Dienst in Ihrem Azure-Abonnement verbinden und authentifizieren. Zum Herstellen dieser Verbindung benötigen Sie Folgendes:
- Der Dienstendpunkt. Dieser Wert ist die URL, unter der der Dienst veröffentlicht wird.
- Den API-Schlüssel Dieser Wert ist ein eindeutiger Schlüssel, der Zugriff gewährt.
Sie können beide Werte im Azure-Portal abrufen.
Da es einige Sekunden dauern kann, bis der Dienst antwortet, sollten Sie für die Formularübermittlung asynchrone Aufrufe verwenden und dann die Ergebnisse der Analyse abrufen:
AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, "prebuilt-layout", fileUri);
AnalyzeResult result = operation.Value;
poller = document_analysis_client.begin_analyze_document(
"prebuilt-layout", AnalyzeDocumentRequest(url_source=docUrl
))
result: AnalyzeResult = poller.result()
Welche Details Sie aus diesen Ergebnissen extrahieren können, ist abhängig von dem von Ihnen verwendeten Modell.