OCR — optyczne rozpoznawanie znaków

Ostrzeżenie

Nie zalecamy korzystania z tej usługi, w tym usługi Azure Vision w narzędziach Foundry Tools, API legacy OCR v3.2 i API RecognizeText v2.1.

Edycje OCR (czytaj)

Ważne

Wybierz wersję czytelniczą, która najlepiej odpowiada Twoim wymaganiom.

Dane wejściowe	Przykłady	Przeczytaj edycję	Korzyści
Obrazy: Ogólne, dzikie zdjęcia	etykiety, znaki uliczne i plakaty	OCR dla obrazów (wersja 4.0)	Zoptymalizowany pod kątem ogólnych obrazów niebędących dokumentami z ulepszonym synchronicznym interfejsem API o zwiększonej wydajności, który ułatwia osadzanie OCR w scenariuszach doświadczenia użytkownika.
Dokumenty: cyfrowe i zeskanowane, w tym obrazy	książki, artykuły i raporty	Model odczytu analizy dokumentów	Zoptymalizowany pod kątem dokumentów skanowanych z dużą liczbą tekstu i dokumentów cyfrowych za pomocą asynchronicznego interfejsu API w celu zautomatyzowania inteligentnego przetwarzania dokumentów na dużą skalę.

Informacje o Azure Vision w wersji 3.2 GA

Szukasz najnowszej wersji ogólnie dostępnej usługi Azure Vision w wersji 3.2? Wszystkie przyszłe ulepszenia funkcji OCR odczytu są częścią dwóch wcześniej wymienionych usług. Nie ma dalszych aktualizacji usługi Azure Vision w wersji 3.2. Aby uzyskać więcej informacji, zobacz Call Azure Vision 3.2 GA Read API i Quickstart: Azure Vision v3.2 GA Read.

OCR lub optyczne rozpoznawanie znaków jest również określane jako rozpoznawanie tekstu lub wyodrębnianie tekstu. Techniki OCR oparte na uczeniu maszynowym umożliwiają wyodrębnianie tekstu drukowanego lub odręcznego z obrazów, takich jak plakaty, znaki uliczne i etykiety produktów, a także z dokumentów, takich jak artykuły, raporty, formularze i faktury. Tekst jest zwykle wyodrębniany jako wyrazy, wiersze tekstu i akapity lub bloki tekstowe, co umożliwia dostęp do wersji cyfrowej zeskanowanego tekstu. Ta funkcja eliminuje lub znacznie zmniejsza potrzebę ręcznego wprowadzania danych.

Aparat OCR

Aparat OCR do odczytu firmy Microsoft używa wielu zaawansowanych modeli uczenia maszynowego, które obsługują języki globalne. Wyodrębnia tekst drukowany i odręczny, w tym języki mieszane i style pisania. W celu wdrożenia elastycznego można użyć funkcji Odczytu jako usługi w chmurze lub jako kontenera lokalnego. Jest on również dostępny jako synchroniczny interfejs API w scenariuszach dla pojedynczych obrazów niezwiązanych z dokumentami, z ulepszeniami wydajności, które upraszczają implementację środowisk użytkownika wspomaganych funkcją OCR.

Inteligentne przetwarzanie dokumentów (IDP) używa OCR jako swojej fundamentalnej technologii do wyodrębniania struktury, relacji, kluczowych wartości, jednostek i innych szczegółowych informacji skoncentrowanych na dokumentach za pomocą zaawansowanej usługi sztucznej inteligencji opartej na uczeniu maszynowym, takiej jak analiza dokumentów. Analiza dokumentów zawiera zoptymalizowaną pod kątem dokumentów wersję Read jako swój aparat OCR, delegując do innych modeli w celu uzyskania głębszych wniosków. Jeśli wyodrębniasz tekst z zeskanowanych i cyfrowych dokumentów, użyj funkcji Document Intelligence Read OCR.

Jak używać OCR

Wypróbuj usługę OCR przy użyciu programu Vision Studio. Następnie postępuj zgodnie z jednym z linków do wersji Read, która najlepiej spełnia Twoje wymagania.

Wypróbuj program Vision Studio

Zrzut ekranu: Pokaz działania OCR w programie Vision Studio.

Obsługiwane języki OCR

Obie wersje Read dostępne obecnie w usłudze Azure Vision obsługują wiele języków dla tekstu drukowanego i odręcznego. Funkcja OCR dla tekstu drukowanego obsługuje języki angielski, francuski, niemiecki, włoski, portugalski, hiszpański, chiński, japoński, koreański, rosyjski, arabski, hindi i inne języki międzynarodowe, które używają skryptów łacińskich, cyrylica, arabskich i devanagari. Funkcja OCR dla tekstu odręcznego obsługuje języki angielski, chiński uproszczony, francuski, niemiecki, włoski, japoński, koreański, portugalski i hiszpański.

Zapoznaj się z pełną listą języków obsługiwanych przez funkcję OCR.

Typowe funkcje OCR

Model odczytu OCR jest dostępny w usługach Azure Vision i Document Intelligence z ogólnymi możliwościami bazowymi podczas optymalizowania pod kątem odpowiednich scenariuszy. Poniższa lista zawiera podsumowanie typowych funkcji:

Wyodrębnianie tekstu drukowanego i odręcznego w obsługiwanych językach
Strony, wiersze tekstu i wyrazy z lokalizacją oraz wynikami ufności
Obsługa języków mieszanych, trybu mieszanego (drukowanie i odręczne)
Dostępny jako kontener Docker Distroless do wdrożeń lokalnych

Użyj interfejsów API chmury OCR lub wdrażaj lokalnie

Większość klientów preferuje interfejsy API w chmurze, ponieważ są łatwe do zintegrowania i oferują szybką produktywność. Platforma Azure i usługa Azure Vision obsługują potrzeby dotyczące skalowania, wydajności, zabezpieczeń danych i zgodności, jednocześnie koncentrując się na zaspokajaniu potrzeb klientów.

W przypadku wdrożenia lokalnego kontener Read Docker umożliwia wdrażanie ogólnie dostępnych funkcji OCR usługi Azure Vision w wersji 3.2 we własnym środowisku lokalnym. Kontenery doskonale nadają się do określonych wymagań w zakresie zabezpieczeń i zarządzania danymi.

Wymagania dotyczące danych wejściowych

API Read przyjmuje obrazy i dokumenty jako dane wejściowe. Obrazy i dokumenty muszą spełniać następujące wymagania:

Obsługiwane formaty plików to JPEG, PNG, BMP, PDF i TIFF.
W przypadku plików PDF i TIFF są przetwarzane maksymalnie 2000 stron (tylko dwie pierwsze strony dla warstwy Bezpłatna).
Rozmiar pliku obrazów musi być mniejszy niż 500 MB (4 MB dla warstwy Bezpłatna) o wymiarach co najmniej 50 x 50 pikseli i maksymalnie 10 000 x 10 000 pikseli. Pliki PDF nie mają limitu rozmiaru.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu 1024 x 768, co odpowiada czcionce o rozmiarze około 8 punktów przy 150 DPI.

Uwaga

Nie musisz przycinać obrazu na linie tekstowe. Wyślij cały obraz do Read API, a rozpozna wszystkie teksty.

Prywatność i zabezpieczenia danych OCR

Podobnie jak we wszystkich narzędziach Foundry, deweloperzy korzystający z usługi Azure Vision powinni pamiętać o zasadach firmy Microsoft dotyczących danych klientów. Aby dowiedzieć się więcej, zobacz stronę Foundry Tools w Centrum zaufania firmy Microsoft.

Następne kroki

W przypadku OCR dla obrazów ogólnych (niedokumentowych) wypróbuj Szybki start interfejsu REST API analizy obrazów Azure Vision 4.0 wersji zapoznawczej.
W przypadku OCR z dokumentami PDF, Office i HTML, a także obrazami dokumentów, zacznij od odczytu analizy dokumentów.
Aby zapoznać się z wcześniejszą wersją GA, zobacz samouczki szybkiego startu dotyczące zestawu SDK Azure Vision 3.2 GA lub interfejsu API REST.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-21