Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ta zawartość dotyczy:checkmarkv4.0 (GA)Poprzednia wersja:blue-checkmark v3.1 (GA) :::moniker-end
Ta zawartość dotyczy:
ZnacznikNajnowsza wersja: | purple-checkmarkwersja 4.0 (GA)
Model kontraktu analizy dokumentów używa zaawansowanych funkcji optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy ważnych jednostek kontraktu. Kontrakty mogą mieć różne formaty i jakość, w tym obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; wyodrębnia kluczowe informacje, takie jak Strony, Jurysdykcje, Identyfikator umowy i Tytuł; funkcja zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie formaty dokumentów w języku angielskim.
Automatyczne przetwarzanie kontraktów
Automatyczne przetwarzanie kontraktów to proces wyodrębniania pól kontraktu klucza z dokumentów. W przeszłości proces analizy kontraktu jest osiągany ręcznie i dlatego bardzo czasochłonny. Dokładne wyodrębnianie kluczowych danych z kontraktów jest zazwyczaj pierwszym i jednym z najważniejszych kroków w procesie automatyzacji kontraktu.
Opcje programowania
Analiza dokumentów w wersji 4.0: 2024-11-30 (GA) obsługuje następujące narzędzia, aplikacje i biblioteki:
| Funkcja | Zasoby | Identyfikator modelu |
|---|---|---|
| Model kontraktu | • Document Intelligence Studio REST API C# SDK • • |
wstępnie utworzony kontrakt |
Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:
| Funkcja | Zasoby | Identyfikator modelu |
|---|---|---|
| Model kontraktu | • Document Intelligence Studio REST API C# SDK • • |
wstępnie utworzony kontrakt |
Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:
| Funkcja | Zasoby | Identyfikator modelu |
|---|---|---|
| Model kontraktu | • Document Intelligence Studio REST API C# SDK • • |
wstępnie utworzony kontrakt |
Wymagania dotyczące danych wejściowych
Obsługiwane są następujące formaty plików.
| Model | Obraz: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Przeczytaj | ✔ | ✔ | ✔ |
| Układ | ✔ | ✔ | ✔ |
| Dokument ogólny | ✔ | ✔ | |
| Wstępnie utworzona | ✔ | ✔ | |
| Niestandardowe wyodrębnianie | ✔ | ✔ | |
| Klasyfikacja niestandardowa | ✔ | ✔ | ✔ |
- Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
- Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
- Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
- Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
- Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
- Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten rozmiar odpowiada około 8-punktowemu tekstowi przy 150 pikselach na cal.
- Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
- Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu wzorcowego i 1 GB dla modelu neuronowego.
- Szkolenie niestandardowego modelu klasyfikacji: całkowity rozmiar danych treningowych wynosi 1 GB, maksymalnie do 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
- Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.
Wypróbowanie wyodrębniania danych dokumentu kontraktu
Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z kontraktów. Potrzebne są następujące zasoby:
Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (
F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.
Document Intelligence Studio
Na stronie głównej Document Intelligence Studio wybierz pozycję Dokumenty podatkowe.
Możesz przeanalizować przykładowe dokumenty podatkowe lub przekazać własne pliki.
Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:
Obsługiwane języki i ustawienia regionalne
Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą stronę Obsługa języków — wstępnie utworzone modele .
Wyodrębnianie pól
Aby uzyskać informacje o obsługiwanych polach wyodrębniania dokumentów, zobaczstronę schematu modelu kontraktu w naszym przykładowym repozytorium GitHub.
Pary klucz-wartość kontraktu i wyodrębnione elementy wiersza znajdują się w
documentResultssekcji danych wyjściowych JSON.
Następne kroki
Spróbuj przetwarzać własne formularze i dokumenty za pomocą programu Document Intelligence Studio.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.