Udostępnij przez


Model payStub analizy dokumentów

Model PayStub analizy dokumentów łączy zaawansowane funkcje optycznego rozpoznawania znaków (OCR) z modelami uczenia głębokiego w celu analizowania i wyodrębniania danych wynagrodzeń i zarobków z poślizgów płacowych. Interfejs API analizuje dokumenty i pliki z informacjami dotyczącymi listy płac; Wyodrębnia kluczowe informacje i zwraca ustrukturyzowaną reprezentację danych JSON.

Funkcja wersja Identyfikator modelu
model payStub Wersja 4.0: 2024-11-30 (ogólna dostępność) prebuilt-payStub.us

Wypróbuj wyodrębnianie danych payStub

Wycinki płac są niezbędnymi dokumentami wydanymi przez pracodawców pracownikom, dostarczając zarobki, potrącenia i informacje o płacy netto za określony okres płacowy. Zobacz, jak dane są wyodrębniane przy użyciu prebuilt-payStub.us modelu. Potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure — możesz bezpłatnie utworzyć subskrypcję platformy Azure

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

    Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Document Intelligence Studio

  1. Na stronie głównej usługi Document Intelligence Studio wybierz pozycję payStub.

  2. Możesz przeanalizować przykładowy wycinkę płatności lub przekazać własne pliki.

  3. Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

Wymagania dotyczące danych wejściowych

Obsługiwane są następujące formaty plików.

Model PDF Obraz:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Przeczytaj
Układ
Dokument ogólny
Wstępnie utworzona
Niestandardowe wyodrębnianie
Klasyfikacja niestandardowa
  • Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
  • Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
  • Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
  • Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
  • Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
  • Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten wymiar odpowiada około 8-punktowemu tekstowi na 150 kropek na cal.
  • Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
  • Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.
  • Trenowanie niestandardowego modelu klasyfikacji: całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
  • Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.

Obsługiwane języki i ustawienia regionalne

Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą wstępnie utworzoną stronę obsługi języka modelu.

Wyodrębnianie pól

Aby uzyskać informacje o obsługiwanych polach wyodrębniania dokumentów, zobacz stronę schematu modelu payStub w naszym przykładowym repozytorium GitHub.

Obsługiwane ustawienia regionalne

Wersja prebuilt-payStub.us obsługuje ustawienia regionalne en-us .

Następne kroki