Wyodrębnianie i mapowanie pól

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Wyodrębnianie pól to proces pobierania danych wyjściowych tekstu z OCR i mapowania poszczególnych wartości tekstowych na określone, oznaczone etykietami pola danych, które odpowiadają znaczącym informacjom biznesowym. Funkcja OCR informuje o tym, jaki tekst istnieje w dokumencie, wyodrębnianie pól informuje o tym, co oznacza ten tekst i gdzie należy do systemów biznesowych.

Potok wyodrębniania pól

Wyodrębnianie pól odbywa się według systematycznego procesu, który przekształca wynik OCR w dane ustrukturyzowane.

Diagram potoku wyodrębniania pól.

Etapy procesu wyodrębniania pól to:

  1. Pozyskiwanie danych wyjściowych OCR.
  2. Wykrywanie pól i identyfikacja kandydatów.
  3. Mapowanie pól i połączenie.
  4. Normalizacja i standaryzacja danych.
  5. Integracja z procesami biznesowymi i systemami.

Przyjrzyjmy się tym etapom bardziej szczegółowo.

Etap 1. Pozyskiwanie danych wyjściowych OCR

Procedura rozpoczyna się od strukturyzowanych wyników z potoku OCR, które mogą obejmować:

  • Nieprzetworzona zawartość tekstowa: rzeczywiste znaki i wyrazy wyodrębnione z dokumentu
  • Metadane pozycyjne: współrzędne ramki ograniczającej, lokalizacje stron i informacje o kolejności odczytywania
  • Wyniki ufności: poziomy ufności aparatu OCR dla każdego elementu tekstowego
  • Informacje o układzie: Struktura dokumentu, podziały wierszy, granice akapitu

Uwaga / Notatka

W przeciwieństwie do prostego przetwarzania tekstu wyodrębnianie pól w dużym stopniu opiera się na tym, gdzie tekst pojawia się w dokumencie, a nie tylko na tym, co mówi. Pozycja "12345" może pomóc określić, czy jest to numer faktury, identyfikator klienta lub numer telefonu.

Etap 2. Wykrywanie pól i identyfikacja kandydatów

Ten etap identyfikuje potencjalną wartość pola w danych wyjściowych OCR. Istnieje wiele metod, które mogą być używane niezależnie lub w połączeniu w celu określenia prawdopodobnych pól w wynikach OCR.

Wykrywanie oparte na szablonach

Szablony wykrywania pól opierają się na dopasowywaniu wzorców opartych na regułach. Identyfikację pól można wykonać przy użyciu technik, takich jak:

  • Wstępnie zdefiniowane układy dokumentów ze znanymi pozycjami pól i słowami kluczowymi kotwicy.
  • Wyszukuje pary label-value, takie jak "Numer faktury:", "Date:", "Total:".
  • Wyrażenia regularne i algorytmy dopasowywania ciągów.

Zalety podejścia opartego na szablonach obejmują wysoką dokładność znanych typów dokumentów, szybkie przetwarzanie i objaśnialne wyniki.

Ograniczenia podejścia obejmują wymaganie ręcznego tworzenia szablonu oraz złożoność spowodowaną różnicami w układzie lub niespójnościami nazewnictwa pól.

Wykrywanie oparte na uczeniu maszynowym

Zamiast zakodowanej logiki wyodrębniać pola na podstawie znanych nazw i lokalizacji, możesz użyć korpusu przykładowych dokumentów do wytrenowania modelu uczenia maszynowego, który wyodrębnia pola na podstawie poznanych relacji. W szczególności modele oparte na transformerze są dobre w stosowaniu kontekstowych wskazówek do identyfikowania wzorców, a więc często są podstawą rozwiązania do wykrywania pól.

Metody trenowania modeli uczenia maszynowego wykrywania pól obejmują:

  • Uczenie nadzorowane: trenowane na oznaczonych zestawach danych ze znanymi lokalizacjami pól.
  • Uczenie samonadzorowane: Wstępnie trenowane na dużych korpusach dokumentów w celu rozumienia wzorców układu.
  • Uczenie wielomodalne: łączy funkcje tekstowe, wizualne i pozycyjne.
  • Zaawansowane architektury modeli, takie jak:
    • Grafowe sieci neuronowe (GNN) modelujące relacje przestrzenne między elementami tekstowymi jako połączenia grafu.
    • Mechanizmy uwagi , które koncentrują się na odpowiednich regionach dokumentu podczas przewidywania wartości pól.
    • Modele sekwencyjne przekształcające sekwencje tekstowe bez struktury na przypisania pól strukturalnych.

Generatywna sztuczna inteligencja do ekstrakcji opartej na schematach

Ostatnie postępy w dużych modelach językowych (LLM) doprowadziły do pojawienia się generacyjnych technik wykrywania pól opartych na sztucznej inteligencji, które umożliwiają bardziej wydajne i skuteczne wykrywanie pól poprzez:

  • Wyodrębnianie oparte na podpowiedziach, w którym podajesz LLM tekst dokumentu i definicję schematu, a następnie tekst jest dopasowywany do pól w schemacie.
  • Uczenie z niewielką ilością przykładów, w którym można trenować modele przy użyciu minimalnych przykładów w celu wyodrębnienia pól niestandardowych.
  • Łańcuch rozumowania, który prowadzi modele przez logikę identyfikacji pól krok po kroku.

Etap 3. Mapowanie pól i skojarzenie

Po ich zidentyfikowaniu, wartości kandydackie powinny zostać przypisane do określonych pól schematu.

Techniki parowania klucz-wartość

W wielu przypadkach pola danych w dokumencie lub formularzu są wartościami dyskretnych, które można mapować na klucze — na przykład nazwę dostawcy, datę i łączną kwotę paragonu lub faktury. Typowe techniki używane do parowania klucz-wartość to:

  • Analiza zbieżności:

    • Klastrowanie przestrzenne: grupuj pobliskie elementy tekstowe przy użyciu algorytmów odległości.
    • Analiza kolejności czytania: postępuj zgodnie z naturalnym przepływem tekstu, aby skojarzyć etykiety z wartościami.
    • Relacje geometryczne: użyj wzorców wyrównania, wcięcia i pozycjonowania.
  • Rozpoznawanie wzorców językowych:

    • Rozpoznawanie nazwanych jednostek (NER): identyfikowanie określonych typów jednostek (dat, ilości, nazw).
    • Tagowanie części mowy: Omówienie relacji gramatycznych między etykietami i wartościami.
    • Analizowanie zależności: analizowanie relacji składniowych w tekście.

Przetwarzanie tabel i zawartości ustrukturyzowanej

Niektóre dokumenty zawierają bardziej złożone struktury tekstu, takie jak tabele. Na przykład paragon lub faktura może zawierać tabelę elementów wiersza z kolumnami dla nazwy, ceny i zakupionej ilości.

Obecność tabeli można określić przy użyciu kilku technik, w tym:

  • Wyspecjalizowane architektury splotowej sieci neuronowej (CNN) na potrzeby rozpoznawania struktury tabel.
  • Metody identyfikacji obiektów dostosowane do rozpoznawania komórek tabeli.
  • Podejścia do parsowania oparte na grafach modelują strukturę tabeli jako relacje grafowe między komórkami.

Aby zamapować wartości w komórkach tabeli na pola, rozwiązanie wyodrębniania pól może stosować co najmniej jedną z następujących technik:

  • Skojarzenie wierszy i kolumn w celu mapowania komórek tabeli na określone schematy pól.
  • Wykrywanie nagłówka w celu zidentyfikowania nagłówków kolumn w celu zrozumienia znaczenia pola.
  • Przetwarzanie hierarchiczne do obsługi zagnieżdżonych struktur tabel i sum podrzędnych.

Ocena ufności i walidacja

Dokładność wyodrębniania pól zależy od wielu czynników, a algorytmy i modele używane do implementacji rozwiązania mogą podlegać potencjalnym błędom w identyfikacji lub interpretacji wartości. Aby to uwzględnić, stosuje się różne techniki do oceny dokładności przewidywanych wartości pól, w tym:

  • Pewność OCR: dziedziczenie współczynników ufności z bazowego rozpoznawania tekstu.
  • Pewność dopasowania wzorca: Ocena bazująca na tym, jak dobrze dopasowanie pasuje do oczekiwanych wzorców.
  • Weryfikacja kontekstu: sprawdzanie, czy wartości pól mają sens w kontekście dokumentu.
  • Walidacja krzyżowa pól: Weryfikacja relacji między wyodrębnionymi polami (na przykład sprawdzenie, czy sumy częściowe pozycji wiersza sumują się do całkowitej sumy faktury).

Etap 4. Normalizacja i standaryzacja danych

Nieprzetworzone wartości wyodrębnione są zazwyczaj przekształcane w spójne formaty (na przykład w celu zapewnienia, że wszystkie wyodrębnione daty są wyrażone w tym samym formacie daty) i sprawdzane pod kątem ważności.

Standaryzacja formatu

Przykłady standaryzacji formatów, które można zaimplementować, to:

  • Normalizacja daty:

    • Wykrywanie formatu: Zidentyfikuj różne formaty dat (MM/DD/RRRR, DD-MM-RRRR itp.).
    • Algorytmy analizowania: konwertuj na standardowe formaty ISO.
    • Rozwiązanie niejednoznaczności: Obsługa przypadków, w których format daty jest niejasny.
  • Przetwarzanie waluty i liczb:

    • Rozpoznawanie symboli: Obsługa różnych symboli walutowych i separatorów tysięcy.
    • Normalizacja dziesiętna: Standaryzacja reprezentacji punktów dziesiętnych między ustawieniami regionalnymi.
    • Konwersja jednostek: przekonwertuj między różnymi jednostkami miary zgodnie z potrzebami.
  • Standaryzacja tekstu:

    • Normalizacja przypadku: Stosowanie spójnych reguł wielkości liter.
    • Standaryzacja kodowania: Obsługa różnych kodowań znaków i znaków specjalnych.
    • Rozszerzenie skrótów: konwertuj typowe skróty na pełne formularze.

Weryfikacja danych i kontrola jakości

Oprócz formatowania wyodrębnionych pól proces standaryzacji umożliwia dalszą walidację wartości wyodrębnionych za pomocą technik, takich jak:

  • Weryfikacja oparta na regułach:

    • Sprawdzanie formatu: Sprawdź, czy wyodrębnione wartości są zgodne z oczekiwanymi wzorcami (numery telefonów, adresy e-mail).
    • Walidacja zakresu: Upewnij się, że wartości liczbowe mieszczą się w rozsądnych granicach.
    • Wymagane sprawdzanie pól: Upewnij się, że wszystkie pola obowiązkowe są obecne.
  • Walidacja statystyczna:

    • Wykrywanie wartości odstających: zidentyfikuj niezwykle wysokie lub niskie wartości, które mogą wskazywać na błędy wyodrębniania.
    • Analiza dystrybucji: porównaj wyodrębnione wartości z wzorcami historycznymi.
    • Walidacja między dokumentami: Sprawdź spójność w powiązanych dokumentach.

Etap 5. Integracja z procesami biznesowymi i systemami

Ostatni etap procesu zwykle obejmuje zintegrowanie wyodrębnionych wartości pól do procesu biznesowego lub systemu:

Mapowanie schematu

Wyodrębnione pola mogą wymagać dalszej transformacji lub ponownego sformatowania, aby dostosować je do schematów aplikacji używanych do pozyskiwania danych do systemów podrzędnych. Przykład:

  • Schematy bazy danych: Mapuj wyodrębnione pola na określone kolumny i tabele bazy danych.
  • Ładunki interfejsu API: formatowanie danych dla użycia interfejsu API REST przez systemy podrzędne.
  • Kolejki komunikatów: przygotuj komunikaty ustrukturyzowane do przetwarzania asynchronicznego.

Proces mapowania schematu może obejmować przekształcenia, takie jak:

  • Zmiana nazwy pola: Mapowanie wyodrębnionych nazw pól na konwencje systemowe docelowe.
  • Konwersja typu danych: Upewnij się, że wartości są zgodne z oczekiwanymi typami danych w systemach docelowych.
  • Logika warunkowa: Zastosowanie reguł biznesowych do transformacji i wyprowadzania danych pól.

Metryki jakości i raportowanie

Innym typowym zadaniem po zakończeniu procesu wyodrębniania jest ocena i raportowanie jakości wyodrębnionych danych. Raport może zawierać informacje, takie jak:

  • Wyniki ufności na poziomie pola: indywidualne oceny ufności dla każdego wyodrębnionego pola.
  • Ocena jakości na poziomie dokumentu: ogólne metryki sukcesu wyodrębniania.
  • Kategoryzacja błędów: klasyfikuj błędy wyodrębniania według typu i przyczyny.