Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.
Dieser Artikel enthält Informationen zu Anwendungsfällen für die optische Zeichenerkennung (OCR).
Was ist eine Transparenznotiz?
Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die das System verwenden, die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Die Schaffung eines Systems, das für seinen vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, ihre Möglichkeiten und Einschränkungen und wie die beste Leistung erreicht wird.
Microsoft stellt Transparenzhinweise bereit, die Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert. Dies betrifft auch die Entscheidungen, die Systembesitzer*innen treffen können, die die Systemleistung und das Systemverhalten beeinflussen, und die Wichtigkeit, das gesamte System zu betrachten, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.
Transparenzhinweise sind Teil eines umfassenderen Aufwands bei Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie in den KI-Prinzipien von Microsoft.
Einführung in die optische Zeichenerkennung (OCR)
Unternehmen müssen heute häufig Text aus Bildern, gescannten Papierdokumenten und digitalen Dateien in umsetzbare Erkenntnisse konvertieren. Diese Erkenntnisse treiben das Wissensmining, die Automatisierung von Geschäftsprozessen und die Zugänglichkeit von Inhalten für alle an. Optische Zeichenerkennung (OCR) ist ein KI-Dienst, der verwendet wird, um Text aus visuellen Inhalten wie Bildern und Dokumenten zu extrahieren. OCR unterstützt derzeit mehrere Sprachen für die Extraktion von Drucktext (siehe unterstützte OCR-Sprachen). Handschriftliche OCR werden derzeit ausschließlich für Englisch unterstützt.
Die Grundlagen von OCR
Die OCR-Technologie von Microsoft wird über die Azure Vision in Foundry Tools Read API angeboten. Kunden rufen die Lese-API mit ihren Inhalten auf, um den extrahierten Text, seine Position und andere Erkenntnisse in der maschinenlesbaren Textausgabe abzurufen. Sie verarbeiten die Ausgabe in ihren Geschäftsanwendungen, um Content Intelligence, Geschäftsprozessautomatisierung und andere Szenarien für ihre Benutzer zu implementieren.
| Begriff | Definition |
|---|---|
| Asynchron | Asynchron bedeutet, dass der Dienst den extrahierten Text nicht sofort zurückgibt. Stattdessen beginnt der Prozess im Hintergrund. Die Kundenanwendung muss zu einem späteren Zeitpunkt zurückkehren, um den extrahierten Text zu erhalten. |
| Lesen Sie | Der Lesevorgang ist ein asynchroner Aufruf, der Bilder und Dokumente akzeptiert, um mit der Analyse und textextraktion zu beginnen, die über einen anderen Aufruf zurückgegeben wird. |
| Abrufen von Leseergebnissen | Während der Analyse- und Extraktionsprozess aktiv ist, gibt der Vorgang zum Abrufen der Ergebnisse den Status der Fortschritte aus. Wenn der Vorgang abgeschlossen ist, gibt der Vorgang "Ergebnisse abrufen" den extrahierten Text (in Form von Textzeilen und Wörtern) und Konfidenzwerte aus. |
| Konfidenzwert | Der Vorgang "Ergebnisse abrufen" gibt Konfidenzwerte im Bereich zwischen 0 und 1 für alle extrahierten Wörter zurück. Dieser Wert stellt die Schätzung des Diensts dar, wie oft es das Wort korrekt aus 100 extrahiert. Beispielsweise ergibt sich für ein Wort, das schätzungsweise in 82 % der Fälle richtig extrahiert wird, ein Konfidenzwert von 0,82. |
Beispielhafte Anwendungsfälle
Die folgenden Anwendungsfälle sind beliebte Beispiele für die OCR-Technologie.
- Bilder und Dokumente suchen und archivieren: Unstrukturierte Dokumente wie Rechtsverträge, technische Dokumente und Nachrichteninhalte enthalten umfangreiche Informationen und Metadaten, die für Prozesse wie automatisiertes Kategorisieren, Kategorisieren und Suchen nicht verfügbar sind. OCR ermöglicht es dem Text aus diesen Dokumenten, maschinenlesbar für Analyse, Suche und Abruf zu sein.
- Moderation und Lokalisierung von Bildinhalten: eCommerce-Unternehmen, nutzergenerierte Inhaltsverleger und Online-Gaming- und Social-Media-Communitys müssen Bilder moderieren, damit sie den Vorschriften zur Onlinesicherheit entsprechen. In bestimmten Fällen müssen sie auch Inhalte für internationale Zielgruppen lokalisieren. OCR ermöglicht es Ihnen, Text aus Bildern zu extrahieren, um nachgelagerte Verarbeitung anzuwenden.
- Automatisierung von Geschäftsprozessen: Die Automatisierung von Geschäftsprozessen erfordert die Integration von vom Benutzer eingegebenen Daten und Einstellungen in Dokumente und Anwendungsbildschirme mit komplexen Geschäftsprozessen. OCR erkennt und extrahiert den in Dokumenten und Bildern eingebetteten Text und stellt ihn für die Schritte von Geschäftsprozessen bereit.
- Verarbeitung von Finanz- und Gesundheitsdokumenten: Bei Verwendung in der Backoffice-Verarbeitung von Finanz- und Versicherungsantragsformularen hilft OCR, Zeit und Aufwand bei der Dokumentverarbeitung zu sparen. Ebenso beschleunigt die auf medizinische Kostenerstattungen und medizinische Informationsformulare angewandte OCR die Erstattung und die Qualifikation für Dienstleistungen und Vorteile.
Überlegungen bei der Auswahl anderer Anwendungsfälle
Berücksichtigen Sie die folgenden Faktoren, wenn Sie einen Anwendungsfall auswählen.
Berücksichtigen Sie sorgfältig, wann die OCR-Ausgabe zur Vergabe oder Ablehnung von Leistungen verwendet wird: Die direkte Nutzung der OCR-Ausgabe zur Vergabe oder Ablehnung von Leistungen kann zu Fehlern führen, wenn sie auf falschen oder unvollständigen Informationen basiert. Beispielsweise können Benutzer beim Ausfüllen medizinischer Formulare Fehler machen oder wichtige Informationen nicht einschließen. Darüber hinaus kann OCR teile des Formulars potenziell falsch gelesen oder nicht erkennen. Um faire und qualitativ hochwertige Entscheidungen für Verbraucher zu gewährleisten, kombinieren Sie OCR-basierte Automatisierung mit menschlicher Aufsicht.
Vermeiden Sie die Verwendung für die Signaturidentifikation: Wenn Sie handschriftlichen Text extrahieren, vermeiden Sie die Verwendung der OCR-Ergebnisse auf Signaturen, um Einzelpersonen zu identifizieren. Signaturen sind für Menschen und Maschinen schwer zu lesen. Eine bessere Möglichkeit, OCR zu verwenden, besteht darin, es zum Erkennen des Vorhandenseins einer Signatur zur weiteren Analyse zu verwenden.
Verwenden Sie OCR nicht für Entscheidungen, die schwerwiegende nachteilige Auswirkungen haben können: Beispiele für solche Anwendungsfälle sind die Verarbeitung medizinischer Verschreibungen und der Abgabe von Medikamenten. Die Machine Learning-Modelle, die Text aus Rezepten extrahieren, können zu einer nicht erkannten oder falschen Textausgabe führen. Entscheidungen, die auf falschen Ergebnissen basieren, können schwerwiegende negative Auswirkungen haben. Darüber hinaus ist es ratsam, die menschliche Überprüfung von Entscheidungen einzubeziehen, die das Potenzial für schwerwiegende Auswirkungen auf Einzelpersonen haben.
-
Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie Foundry Tools und Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind Foundry Tools oder Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.