Udostępnij przez


Model kontraktu analizy dokumentów

Ta zawartość dotyczy:checkmarkv4.0 (GA)Poprzednia wersja:blue-checkmark v3.1 (GA) :::moniker-end

Ta zawartość dotyczy:checkmarkZnacznikNajnowsza wersja: | purple-checkmarkwersja 4.0 (GA)

Model kontraktu analizy dokumentów używa zaawansowanych funkcji optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy ważnych jednostek kontraktu. Kontrakty mogą mieć różne formaty i jakość, w tym obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; wyodrębnia kluczowe informacje, takie jak Strony, Jurysdykcje, Identyfikator umowy i Tytuł; funkcja zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie formaty dokumentów w języku angielskim.

Automatyczne przetwarzanie kontraktów

Automatyczne przetwarzanie kontraktów to proces wyodrębniania pól kontraktu klucza z dokumentów. W przeszłości proces analizy kontraktu jest osiągany ręcznie i dlatego bardzo czasochłonny. Dokładne wyodrębnianie kluczowych danych z kontraktów jest zazwyczaj pierwszym i jednym z najważniejszych kroków w procesie automatyzacji kontraktu.

Opcje programowania

Analiza dokumentów w wersji 4.0: 2024-11-30 (GA) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Identyfikator modelu
Model kontraktu • Document Intelligence Studio REST API
C# SDK
wstępnie utworzony kontrakt

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Identyfikator modelu
Model kontraktu • Document Intelligence Studio REST API
C# SDK
wstępnie utworzony kontrakt

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Identyfikator modelu
Model kontraktu • Document Intelligence Studio REST API
C# SDK
wstępnie utworzony kontrakt

Wymagania dotyczące danych wejściowych

Obsługiwane są następujące formaty plików.

Model PDF Obraz:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Przeczytaj
Układ
Dokument ogólny
Wstępnie utworzona
Niestandardowe wyodrębnianie
Klasyfikacja niestandardowa
  • Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
  • Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
  • Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
  • Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
  • Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
  • Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten rozmiar odpowiada około 8-punktowemu tekstowi przy 150 pikselach na cal.
  • Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
  • Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu wzorcowego i 1 GB dla modelu neuronowego.
  • Szkolenie niestandardowego modelu klasyfikacji: całkowity rozmiar danych treningowych wynosi 1 GB, maksymalnie do 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
  • Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.

Wypróbowanie wyodrębniania danych dokumentu kontraktu

Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z kontraktów. Potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Document Intelligence Studio

  1. Na stronie głównej Document Intelligence Studio wybierz pozycję Dokumenty podatkowe.

  2. Możesz przeanalizować przykładowe dokumenty podatkowe lub przekazać własne pliki.

  3. Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

    Zrzut ekranu przedstawiający przyciski Run analysis and Analyze (Uruchamianie analizy i analizowanie) w narzędziu Document Intelligence Studio.

Obsługiwane języki i ustawienia regionalne

Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą stronę Obsługa języków — wstępnie utworzone modele .

Wyodrębnianie pól

  • Aby uzyskać informacje o obsługiwanych polach wyodrębniania dokumentów, zobaczstronę schematu modelu kontraktu w naszym przykładowym repozytorium GitHub.

  • Pary klucz-wartość kontraktu i wyodrębnione elementy wiersza znajdują się w documentResults sekcji danych wyjściowych JSON.

Następne kroki