Wyodrębnianie i mapowanie pól
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Wyodrębnianie pól to proces pobierania danych wyjściowych tekstu z OCR i mapowania poszczególnych wartości tekstowych na określone, oznaczone etykietami pola danych, które odpowiadają znaczącym informacjom biznesowym. Funkcja OCR informuje o tym, jaki tekst istnieje w dokumencie, wyodrębnianie pól informuje o tym, co oznacza ten tekst i gdzie należy do systemów biznesowych.
Potok wyodrębniania pól
Wyodrębnianie pól odbywa się według systematycznego procesu, który przekształca wynik OCR w dane ustrukturyzowane.
Etapy procesu wyodrębniania pól to:
- Pozyskiwanie danych wyjściowych OCR.
- Wykrywanie pól i identyfikacja kandydatów.
- Mapowanie pól i połączenie.
- Normalizacja i standaryzacja danych.
- Integracja z procesami biznesowymi i systemami.
Przyjrzyjmy się tym etapom bardziej szczegółowo.
Etap 1. Pozyskiwanie danych wyjściowych OCR
Procedura rozpoczyna się od strukturyzowanych wyników z potoku OCR, które mogą obejmować:
- Nieprzetworzona zawartość tekstowa: rzeczywiste znaki i wyrazy wyodrębnione z dokumentu
- Metadane pozycyjne: współrzędne ramki ograniczającej, lokalizacje stron i informacje o kolejności odczytywania
- Wyniki ufności: poziomy ufności aparatu OCR dla każdego elementu tekstowego
- Informacje o układzie: Struktura dokumentu, podziały wierszy, granice akapitu
Uwaga / Notatka
W przeciwieństwie do prostego przetwarzania tekstu wyodrębnianie pól w dużym stopniu opiera się na tym, gdzie tekst pojawia się w dokumencie, a nie tylko na tym, co mówi. Pozycja "12345" może pomóc określić, czy jest to numer faktury, identyfikator klienta lub numer telefonu.
Etap 2. Wykrywanie pól i identyfikacja kandydatów
Ten etap identyfikuje potencjalną wartość pola w danych wyjściowych OCR. Istnieje wiele metod, które mogą być używane niezależnie lub w połączeniu w celu określenia prawdopodobnych pól w wynikach OCR.
Wykrywanie oparte na szablonach
Szablony wykrywania pól opierają się na dopasowywaniu wzorców opartych na regułach. Identyfikację pól można wykonać przy użyciu technik, takich jak:
- Wstępnie zdefiniowane układy dokumentów ze znanymi pozycjami pól i słowami kluczowymi kotwicy.
- Wyszukuje pary label-value, takie jak "Numer faktury:", "Date:", "Total:".
- Wyrażenia regularne i algorytmy dopasowywania ciągów.
Zalety podejścia opartego na szablonach obejmują wysoką dokładność znanych typów dokumentów, szybkie przetwarzanie i objaśnialne wyniki.
Ograniczenia podejścia obejmują wymaganie ręcznego tworzenia szablonu oraz złożoność spowodowaną różnicami w układzie lub niespójnościami nazewnictwa pól.
Wykrywanie oparte na uczeniu maszynowym
Zamiast zakodowanej logiki wyodrębniać pola na podstawie znanych nazw i lokalizacji, możesz użyć korpusu przykładowych dokumentów do wytrenowania modelu uczenia maszynowego, który wyodrębnia pola na podstawie poznanych relacji. W szczególności modele oparte na transformerze są dobre w stosowaniu kontekstowych wskazówek do identyfikowania wzorców, a więc często są podstawą rozwiązania do wykrywania pól.
Metody trenowania modeli uczenia maszynowego wykrywania pól obejmują:
- Uczenie nadzorowane: trenowane na oznaczonych zestawach danych ze znanymi lokalizacjami pól.
- Uczenie samonadzorowane: Wstępnie trenowane na dużych korpusach dokumentów w celu rozumienia wzorców układu.
- Uczenie wielomodalne: łączy funkcje tekstowe, wizualne i pozycyjne.
-
Zaawansowane architektury modeli, takie jak:
- Grafowe sieci neuronowe (GNN) modelujące relacje przestrzenne między elementami tekstowymi jako połączenia grafu.
- Mechanizmy uwagi , które koncentrują się na odpowiednich regionach dokumentu podczas przewidywania wartości pól.
- Modele sekwencyjne przekształcające sekwencje tekstowe bez struktury na przypisania pól strukturalnych.
Generatywna sztuczna inteligencja do ekstrakcji opartej na schematach
Ostatnie postępy w dużych modelach językowych (LLM) doprowadziły do pojawienia się generacyjnych technik wykrywania pól opartych na sztucznej inteligencji, które umożliwiają bardziej wydajne i skuteczne wykrywanie pól poprzez:
- Wyodrębnianie oparte na podpowiedziach, w którym podajesz LLM tekst dokumentu i definicję schematu, a następnie tekst jest dopasowywany do pól w schemacie.
- Uczenie z niewielką ilością przykładów, w którym można trenować modele przy użyciu minimalnych przykładów w celu wyodrębnienia pól niestandardowych.
- Łańcuch rozumowania, który prowadzi modele przez logikę identyfikacji pól krok po kroku.
Etap 3. Mapowanie pól i skojarzenie
Po ich zidentyfikowaniu, wartości kandydackie powinny zostać przypisane do określonych pól schematu.
Techniki parowania klucz-wartość
W wielu przypadkach pola danych w dokumencie lub formularzu są wartościami dyskretnych, które można mapować na klucze — na przykład nazwę dostawcy, datę i łączną kwotę paragonu lub faktury. Typowe techniki używane do parowania klucz-wartość to:
Analiza zbieżności:
- Klastrowanie przestrzenne: grupuj pobliskie elementy tekstowe przy użyciu algorytmów odległości.
- Analiza kolejności czytania: postępuj zgodnie z naturalnym przepływem tekstu, aby skojarzyć etykiety z wartościami.
- Relacje geometryczne: użyj wzorców wyrównania, wcięcia i pozycjonowania.
Rozpoznawanie wzorców językowych:
- Rozpoznawanie nazwanych jednostek (NER): identyfikowanie określonych typów jednostek (dat, ilości, nazw).
- Tagowanie części mowy: Omówienie relacji gramatycznych między etykietami i wartościami.
- Analizowanie zależności: analizowanie relacji składniowych w tekście.
Przetwarzanie tabel i zawartości ustrukturyzowanej
Niektóre dokumenty zawierają bardziej złożone struktury tekstu, takie jak tabele. Na przykład paragon lub faktura może zawierać tabelę elementów wiersza z kolumnami dla nazwy, ceny i zakupionej ilości.
Obecność tabeli można określić przy użyciu kilku technik, w tym:
- Wyspecjalizowane architektury splotowej sieci neuronowej (CNN) na potrzeby rozpoznawania struktury tabel.
- Metody identyfikacji obiektów dostosowane do rozpoznawania komórek tabeli.
- Podejścia do parsowania oparte na grafach modelują strukturę tabeli jako relacje grafowe między komórkami.
Aby zamapować wartości w komórkach tabeli na pola, rozwiązanie wyodrębniania pól może stosować co najmniej jedną z następujących technik:
- Skojarzenie wierszy i kolumn w celu mapowania komórek tabeli na określone schematy pól.
- Wykrywanie nagłówka w celu zidentyfikowania nagłówków kolumn w celu zrozumienia znaczenia pola.
- Przetwarzanie hierarchiczne do obsługi zagnieżdżonych struktur tabel i sum podrzędnych.
Ocena ufności i walidacja
Dokładność wyodrębniania pól zależy od wielu czynników, a algorytmy i modele używane do implementacji rozwiązania mogą podlegać potencjalnym błędom w identyfikacji lub interpretacji wartości. Aby to uwzględnić, stosuje się różne techniki do oceny dokładności przewidywanych wartości pól, w tym:
- Pewność OCR: dziedziczenie współczynników ufności z bazowego rozpoznawania tekstu.
- Pewność dopasowania wzorca: Ocena bazująca na tym, jak dobrze dopasowanie pasuje do oczekiwanych wzorców.
- Weryfikacja kontekstu: sprawdzanie, czy wartości pól mają sens w kontekście dokumentu.
- Walidacja krzyżowa pól: Weryfikacja relacji między wyodrębnionymi polami (na przykład sprawdzenie, czy sumy częściowe pozycji wiersza sumują się do całkowitej sumy faktury).
Etap 4. Normalizacja i standaryzacja danych
Nieprzetworzone wartości wyodrębnione są zazwyczaj przekształcane w spójne formaty (na przykład w celu zapewnienia, że wszystkie wyodrębnione daty są wyrażone w tym samym formacie daty) i sprawdzane pod kątem ważności.
Standaryzacja formatu
Przykłady standaryzacji formatów, które można zaimplementować, to:
Normalizacja daty:
- Wykrywanie formatu: Zidentyfikuj różne formaty dat (MM/DD/RRRR, DD-MM-RRRR itp.).
- Algorytmy analizowania: konwertuj na standardowe formaty ISO.
- Rozwiązanie niejednoznaczności: Obsługa przypadków, w których format daty jest niejasny.
Przetwarzanie waluty i liczb:
- Rozpoznawanie symboli: Obsługa różnych symboli walutowych i separatorów tysięcy.
- Normalizacja dziesiętna: Standaryzacja reprezentacji punktów dziesiętnych między ustawieniami regionalnymi.
- Konwersja jednostek: przekonwertuj między różnymi jednostkami miary zgodnie z potrzebami.
Standaryzacja tekstu:
- Normalizacja przypadku: Stosowanie spójnych reguł wielkości liter.
- Standaryzacja kodowania: Obsługa różnych kodowań znaków i znaków specjalnych.
- Rozszerzenie skrótów: konwertuj typowe skróty na pełne formularze.
Weryfikacja danych i kontrola jakości
Oprócz formatowania wyodrębnionych pól proces standaryzacji umożliwia dalszą walidację wartości wyodrębnionych za pomocą technik, takich jak:
Weryfikacja oparta na regułach:
- Sprawdzanie formatu: Sprawdź, czy wyodrębnione wartości są zgodne z oczekiwanymi wzorcami (numery telefonów, adresy e-mail).
- Walidacja zakresu: Upewnij się, że wartości liczbowe mieszczą się w rozsądnych granicach.
- Wymagane sprawdzanie pól: Upewnij się, że wszystkie pola obowiązkowe są obecne.
Walidacja statystyczna:
- Wykrywanie wartości odstających: zidentyfikuj niezwykle wysokie lub niskie wartości, które mogą wskazywać na błędy wyodrębniania.
- Analiza dystrybucji: porównaj wyodrębnione wartości z wzorcami historycznymi.
- Walidacja między dokumentami: Sprawdź spójność w powiązanych dokumentach.
Etap 5. Integracja z procesami biznesowymi i systemami
Ostatni etap procesu zwykle obejmuje zintegrowanie wyodrębnionych wartości pól do procesu biznesowego lub systemu:
Mapowanie schematu
Wyodrębnione pola mogą wymagać dalszej transformacji lub ponownego sformatowania, aby dostosować je do schematów aplikacji używanych do pozyskiwania danych do systemów podrzędnych. Przykład:
- Schematy bazy danych: Mapuj wyodrębnione pola na określone kolumny i tabele bazy danych.
- Ładunki interfejsu API: formatowanie danych dla użycia interfejsu API REST przez systemy podrzędne.
- Kolejki komunikatów: przygotuj komunikaty ustrukturyzowane do przetwarzania asynchronicznego.
Proces mapowania schematu może obejmować przekształcenia, takie jak:
- Zmiana nazwy pola: Mapowanie wyodrębnionych nazw pól na konwencje systemowe docelowe.
- Konwersja typu danych: Upewnij się, że wartości są zgodne z oczekiwanymi typami danych w systemach docelowych.
- Logika warunkowa: Zastosowanie reguł biznesowych do transformacji i wyprowadzania danych pól.
Metryki jakości i raportowanie
Innym typowym zadaniem po zakończeniu procesu wyodrębniania jest ocena i raportowanie jakości wyodrębnionych danych. Raport może zawierać informacje, takie jak:
- Wyniki ufności na poziomie pola: indywidualne oceny ufności dla każdego wyodrębnionego pola.
- Ocena jakości na poziomie dokumentu: ogólne metryki sukcesu wyodrębniania.
- Kategoryzacja błędów: klasyfikuj błędy wyodrębniania według typu i przyczyny.