OCR: Optical Character Recognition (optische Zeichenerkennung)

Warnung

Wir empfehlen nicht, diesen Dienst zu verwenden, einschließlich der Azure Vision in Foundry Tools legacy OCR API v3.2 und RecognizeText API v2.1.

OCR-Editionen (Read)

Wichtig

Wählen Sie die Read-Edition aus, die Ihren Anforderungen am besten entspricht.

Eingabe	Beispiele	Read-Edition	Vorteil
Images: Allgemein, In-the-Wild-Images	Beschriftungen, Straßenschilder und Poster	OCR für Bilder (Version 4.0)	Optimiert für allgemeine Bilder, die keine Dokumente sind, mit einer leistungsstärkeren synchronen API, die die Einbettung von OCR in Ihre Benutzerszenarien erleichtert.
Dokumente: Digital und gescannt, einschließlich Images	Bücher, Artikel und Berichte	Lesemodell für Document Intelligence	Optimiert für gescannte und digitale Dokumente mit einer asynchronen API, um die intelligente Dokumentverarbeitung im großen Stil zu automatisieren.

Informationen zu Azure Vision v3.2 GA Lesen

Suchen Sie nach der neuesten Azure Vision v3.2 GA Read? Alle zukünftigen Read OCR-Erweiterungen sind Teil der beiden zuvor aufgeführten Dienste. Es gibt keine weiteren Updates für Azure Vision v3.2. Weitere Informationen finden Sie unter Call Azure Vision 3.2 GA Read API and Quickstart: Azure Vision v3.2 GA Read.

OCR oder optische Zeichenerkennung wird auch als Texterkennung oder Textextraktion bezeichnet. Mit maschinellen lernbasierten OCR-Techniken können Sie gedruckten oder handschriftlichen Text aus Bildern wie Postern, Straßenschildern und Produktetiketten sowie aus Dokumenten wie Artikeln, Berichten, Formularen und Rechnungen extrahieren. Der Text wird in der Regel in Form von Wörtern, Textzeilen und Absätzen oder Textblöcken extrahiert, was den Zugriff auf eine digitale Version des gescannten Texts ermöglicht. Durch diese Funktion wird die Notwendigkeit der manuellen Dateneingabe beseitigt oder erheblich reduziert.

OCR-Engine

Das OcR-Modul " Lesen" von Microsoft verwendet mehrere erweiterte Machine Learning-Modelle, die globale Sprachen unterstützen. Es extrahiert gedruckten und handschriftlichen Text, einschließlich gemischter Sprachen und Schreibstile. Sie können "Lesen als Clouddienst" oder als lokaler Container für eine flexible Bereitstellung verwenden. Es ist auch als synchrone API für einzelne, nicht dokumentbezogene, bildgeschützte Szenarien mit Leistungsverbesserungen verfügbar, die die Implementierung von OCR-unterstützten Benutzeroberflächen vereinfachen.

Intelligent Document Processing (IDP) verwendet OCR als grundlegende Technologie zum Extrahieren von Struktur, Beziehungen, Schlüsselwerten, Entitäten und anderen dokumentorientierten Erkenntnissen mit einem fortschrittlichen machine-learning-basierten KI-Dienst wie Document Intelligence. Dokument Intelligenz enthält als OCR-Engine eine für Dokumente optimierte Version von Read und delegiert Aufgaben für höherwertige Erkenntnisse an andere Modelle. Wenn Sie Text aus gescannten und digitalen Dokumenten extrahieren, verwenden Sie Document Intelligence Read OCR.

Verwendung von OCR

Testen Sie die optische Zeichenerkennung mithilfe von Vision Studio. Folgen Sie dann einem der Links zur Read Edition, die Ihre Anforderungen am besten erfüllt.

Vision Studio testen

Screenshot: Demo des Read-OCR-Modells in Vision Studio.

Von OCR unterstützte Sprachen

Beide in Azure Vision verfügbaren Leseversionen unterstützen mehrere Sprachen für gedruckten und handschriftlichen Text. OCR für gedruckten Text unterstützt Englisch, Französisch, Deutsch, Italienisch, Portugiesisch, Spanisch, Chinesisch, Japanisch, Koreanisch, Russisch, Arabisch, Hindi und andere internationale Sprachen, die Lateinische, Kyrillisch, Arabisch und Devanagari-Schriften verwenden. OCR für handschriftlichen Text unterstützt Englisch, Chinesisch vereinfacht, Französisch, Deutsch, Italienisch, Japanisch, Koreanisch, Portugiesisch und Spanisch.

Eine vollständige Liste finden Sie unter Sprachunterstützung für maschinelles Sehen.

Allgemeine OCR-Features

Das Read OCR-Modell ist in Azure Vision und Document Intelligence mit gemeinsamen Grundfunktionen verfügbar, während es für die jeweiligen Szenarien optimiert wird. Das Modell enthält die folgenden allgemeinen Features:

Extraktion von gedrucktem und handschriftlichem Text in den unterstützten Sprachen
Seiten, Textzeilen und Wörter mit Positionsangaben und Konfidenzzahlen
Unterstützung für gemischte Sprachen und gemischten Modus (gedruckter und handschriftlicher Text)
Verfügbar als Docker-Container ohne Distribution für die lokale Bereitstellung

Verwenden der OCR-Cloud-APIs oder lokales Bereitstellen

Die meisten Kunden bevorzugen die Cloud-APIs, da sie einfach zu integrieren sind und eine schnelle Produktivität sofort bieten. Azure und der Azure Vision-Dienst verarbeiten Skalierungs-, Leistungs-, Datensicherheits- und Complianceanforderungen, während Sie sich auf die Anforderungen Ihrer Kunden konzentrieren.

Bei der lokalen Bereitstellung können Sie mit dem Read Docker-Container die allgemein verfügbaren OCR-Funktionen von Azure Vision v3.2 in Ihrer eigenen lokalen Umgebung bereitstellen. Container eignen sich hervorragend für bestimmte Sicherheits- und Datengovernanceanforderungen.

Eingabeanforderungen

Die Lese-API akzeptiert Bilder und Dokumente als Eingabe. Die Bilder und Dokumente müssen die folgenden Anforderungen erfüllen:

Unterstützte Dateiformate sind JPEG, PNG, BMP, PDF und TIFF.
Für PDF- und TIFF-Dateien werden bis zu 2.000 Seiten verarbeitet (nur die ersten beiden Seiten für die kostenlose Ebene).
Die Dateigröße von Bildern muss kleiner als 500 MB (4 MB für die freie Ebene) mit den Abmessungen von mindestens 50 x 50 Pixel und höchstens 10.000 x 10.000 Pixel sein. Für PDF-Dateien besteht keine Größenbeschränkung.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild der Größe 1024 × 768. Dies entspricht in etwa Text mit einem 8-Punkt-Schriftgrad bei 150 DPI.

Hinweis

Sie brauchen ein Bild nicht für Textzeilen zuzuschneiden. Senden Sie das gesamte Bild an die Lese-API, dann wird der gesamte Text erkannt.

OCR-Datenschutz und -Sicherheit

Wie bei allen Foundry Tools sollten Entwickler, die den Azure Vision-Dienst verwenden, die Richtlinien von Microsoft für Kundendaten kennen. Weitere Informationen finden Sie auf der Seite "Foundry Tools" im Microsoft Trust Center.

Nächste Schritte

Testen Sie bei OCR mit allgemeinen (nicht dokumentbezogenen) Bildern den Schnellstart der Bildanalyse-REST-API-Vorschau in Azure Vision 4.0.
Für OCR bei PDFs, Office- und HTML-Dokumenten sowie Dokumentbildern beginnen Sie mit Document Intelligence Read.
Die vorherige GA-Version finden Sie in den Schnellstarts des Azure Vision 3.2 GA-SDK oder der REST-API.

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-21