Modele dokumentów podatkowych analizy dokumentów amerykańskich

Ta zawartość dotyczy: v4.0 (GA)checkmarkPoprzednie wersje:blue-checkmarkv3.1 (GA) :::moniker-end

Ta zawartość dotyczy:ZnacznikNajnowsza wersja: | purple-checkmarkwersja 4.0 (GA)

Model podatkowy analizy dokumentów wykorzystuje zaawansowane funkcje optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy dokumentów podatkowych. Dokumenty podatkowe mogą mieć różne formaty, takie jak 1099, 1098, W2, 1040, 1095A, 1095C, W-4, 1099-SSA. Format wejściowy może obejmować obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; Wyodrębnia kluczowe informacje i zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie niektóre angielskie formaty dokumentów podatkowych.

Obsługiwane typy formularzy podatkowych:

Ujednolicony podatek USA
W-2
1098
1098-E
1098-T
1099 i odmiany (dodano 1099-SSA)
1040 i odmiany
1095A, 1095C
W-4

Automatyczne przetwarzanie dokumentów podatkowych

Zautomatyzowane przetwarzanie dokumentów podatkowych to proces wyodrębniania pól kluczy z dokumentów podatkowych. W przeszłości dokumenty podatkowe były przetwarzane ręcznie. Ten model umożliwia łatwą automatyzację scenariuszy podatkowych.

Ujednolicony podatek USA

Wstępnie Unified US Tax utworzony model automatycznie wykrywa i wyodrębnia dane z W2formularzy , 1098, 1040i 1099 podatkowych w przesłanych dokumentach. Dokumenty te mogą składać się z wielu dokumentów podatkowych lub niezwiązanych z opodatkowaniem. Model przetwarza tylko obsługiwane formularze.

Zrzut ekranu przedstawiający diagram ujednoliconego przetwarzania podatkowego.

Opcje programowania

Analiza dokumentów w wersji 4.0: 2024-11-30 (GA) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Identyfikator modelu
Modele formularzy podatkowych w USA	• Document Intelligence Studio REST API C# SDK • •	• prebuilt-tax.us • wstępnie utworzony podatek.us.w2 • wstępnie utworzony podatek.us.W-4 • wstępnie utworzony podatek.us.1095A • wstępnie utworzony podatek.us.1095C • wstępnie utworzony podatek.us.1098• wstępnie utworzony podatek.us.1098E • wstępnie utworzony podatek.us.1098T • wstępnie utworzony podatek.us.us.1099A • wstępnie utworzony podatek.us.1099B • wstępnie utworzony podatek.us.1099C • wstępnie utworzony podatek.us.1099CAP • wstępnie utworzony podatek.us.1099Combo • wstępnie utworzony podatek.us.1099DIV • wstępnie utworzony podatek.us.1099G • wstępnie utworzony podatek.us.1099H • prebuilt-tax.us.1099INT• prebuilt-tax.us.1099K• prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • wstępnie utworzony podatek.us.1099MISC • wstępnie utworzony podatek.us.1099NEC • wstępnie utworzony podatek.us.1099OID • wstępnie utworzony podatek.us.1099PATR • wstępnie utworzony podatek.us.1099Q • wstępnie utworzony podatek.us.1099QA • wstępnie utworzony podatek.us.1099R • wstępnie utworzony podatek.us.1099SA • wstępnie utworzony podatek.us.1099SA • wstępnie utworzony podatek.us.1099SA • prebuilt-tax.us.1040• prebuilt-tax.us.1040Schedule1 • wstępnie utworzony podatek.us.1040Schedule2 • wstępnie utworzony podatek.us.1040Schedule3 • wstępnie utworzony podatek.us.1040Schedule8812 • wstępnie utworzony podatek.us.1040ScheduleA • wstępnie utworzony-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE• prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • wstępnie utworzony podatek.us.1040Senior

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Identyfikator modelu
Modele formularzy podatkowych w USA	• Document Intelligence Studio REST API C# SDK • •	• prebuilt-tax.us.w2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Identyfikator modelu
Modele formularzy podatkowych w USA	• Document Intelligence Studio REST API C# SDK • •	• prebuilt-tax.us.w2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T

Wymagania dotyczące danych wejściowych

Obsługiwane są następujące formaty plików.

Model	PDF	Obraz: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe wyodrębnianie	✔	✔
Klasyfikacja niestandardowa	✔	✔	✔

Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten rozmiar odpowiada około 8-punktowemu tekstowi przy 150 pikselach na cal.
Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu wzorcowego i 1 GB dla modelu neuronowego.
Szkolenie niestandardowego modelu klasyfikacji: całkowity rozmiar danych treningowych wynosi 1 GB, maksymalnie do 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.

Wypróbowanie wyodrębniania danych dokumentu podatkowego

Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z faktur. Potrzebne są następujące zasoby:

Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Document Intelligence Studio

Na stronie głównej Usługi Document Intelligence Studio wybierz obsługiwany model dokumentów podatkowych.
Możesz przeanalizować przykładowy dokument podatkowy lub przekazać własne pliki.
Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

Wypróbuj narzędzie Document Intelligence Studio

Obsługiwane języki i ustawienia regionalne

Zobacz naszą stronę Obsługa języków — wstępnie utworzone modele , aby uzyskać pełną listę obsługiwanych języków.

Wyodrębnianie pól

Aby uzyskać informacje o obsługiwanych polach wyodrębniania dokumentów, zobacz strony schematu modelu dokumentów podatkowych w naszym przykładowym repozytorium GitHub.

Pary klucz-wartość dokumentów podatkowych i wyodrębnione elementy wiersza znajdują się w documentResults sekcji danych wyjściowych JSON.

Następne kroki

Spróbuj przetwarzać własne formularze i dokumenty za pomocą programu Document Intelligence Studio.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.

Znajdź więcej przykładów w witrynie GitHub.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-11-18