Omówienie wyodrębniania informacji

Ukończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Wyodrębnianie informacji to obciążenie, które łączy wiele technik sztucznej inteligencji w celu wyodrębniania danych z zawartości — często dokumentów cyfrowych. Kompleksowe rozwiązanie wyodrębniania informacji obejmuje elementy przetwarzania obrazów do wykrywania tekstu w danych opartych na obrazach; i uczenie maszynowe lub coraz częściej generujące sztuczną inteligencję, aby semantycznie mapować wyodrębniony tekst na określone pola danych.

Diagram procesu wyodrębniania informacji.

  1. Wykrywanie i wyodrębnianie tekstu z obrazów przy użyciu optycznego rozpoznawania znaków (OCR).
  2. Identyfikacja wartości i mapowanie z wyników OCR na pola danych.

Na przykład rozwiązanie do przetwarzania oświadczeń wydatków opartych na sztucznej inteligencji może automatycznie wyodrębnić odpowiednie pola z paragonów w celu wydajniejszego przetwarzania oświadczeń.

Zeskanowane potwierdzenie Wyodrębnione dane
Schemat paragonu.
  • Dostawca: Czwarta kawa
  • Data: 2024-08-15
  • Suma częściowa: $6.48
  • Podatek: $0.49
  • Total Claim: $6.97

Wybieranie odpowiedniego podejścia

Podczas planowania rozwiązania do wyodrębniania informacji należy wziąć pod uwagę wymagania i ograniczenia, które musi spełnić system. Niektóre kluczowe zagadnienia obejmują:

  • Charakterystykę dokumentu. Dokumenty, z których trzeba wyodrębnić dane, są podstawą całego rozwiązania. Rozważ następujące czynniki:

    • Spójność układu: standardowe formularze preferują podejścia oparte na szablonach, podczas gdy potrzeba przetwarzania wielu formatów i układów może wymagać bardziej złożonego rozwiązania opartego na uczeniu maszynowym.
    • Wymagania dotyczące przepustowości: Korzyści z przetwarzania dużej ilości danych wynikają ze stosowania modeli zautomatyzowanego uczenia maszynowego, które działają na zoptymalizowanym sprzęcie systemowym.
    • Wymagania dotyczące dokładności: Krytyczne aplikacje mogą wymagać weryfikacji z udziałem człowieka.
  • Wymagania i ograniczenia dotyczące infrastruktury technicznej. Rozwiązanie będzie wymagać uruchomienia infrastruktury sprzętowej i programowej. Rozważ następujące czynniki:

    • Bezpieczeństwo i prywatność: Przetwarzane dokumenty mogą zawierać wrażliwe lub poufne dane. Rozwiązanie musi obejmować odpowiednie środki w celu zabezpieczenia dostępu do danych i zgodności z dowolnymi wymaganiami branżowymi dotyczącymi przechowywania i przetwarzania chronionych danych.
    • Moc przetwarzania: modele uczenia głębokiego i generowania sztucznej inteligencji często używane w rozwiązaniach do wyodrębniania informacji wymagają znaczących zasobów obliczeniowych.
    • Wymagania dotyczące opóźnień: przetwarzanie w czasie rzeczywistym może ograniczyć złożoność modelu.
    • Potrzeby dotyczące skalowalności: rozwiązania oparte na chmurze oferują lepszą skalowalność dla zmiennych obciążeń.
    • Złożoność integracji: należy wziąć pod uwagę wymagania dotyczące zgodności interfejsu API i formatu danych.

Wskazówka

W wielu przypadkach rozwiązania wyodrębniania informacji można tworzyć przy użyciu usług oprogramowania, takich jak Azure Document Intelligence w narzędziach Microsoft Foundry Tools i Azure Content Understanding w narzędziach Microsoft Foundry Tools. Korzystanie z usług takich jak te, które stanowią podstawę rozwiązania, może znacznie zmniejszyć nakład pracy programistycznej, zapewniając jednocześnie wysoce skalowalną, sprawdzoną w branży wydajność, dokładność i możliwości integracji.