Omówienie wyodrębniania informacji
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Wyodrębnianie informacji to obciążenie, które łączy wiele technik sztucznej inteligencji w celu wyodrębniania danych z zawartości — często dokumentów cyfrowych. Kompleksowe rozwiązanie wyodrębniania informacji obejmuje elementy przetwarzania obrazów do wykrywania tekstu w danych opartych na obrazach; i uczenie maszynowe lub coraz częściej generujące sztuczną inteligencję, aby semantycznie mapować wyodrębniony tekst na określone pola danych.
- Wykrywanie i wyodrębnianie tekstu z obrazów przy użyciu optycznego rozpoznawania znaków (OCR).
- Identyfikacja wartości i mapowanie z wyników OCR na pola danych.
Na przykład rozwiązanie do przetwarzania oświadczeń wydatków opartych na sztucznej inteligencji może automatycznie wyodrębnić odpowiednie pola z paragonów w celu wydajniejszego przetwarzania oświadczeń.
| Zeskanowane potwierdzenie | Wyodrębnione dane |
|---|---|
|
|
Wybieranie odpowiedniego podejścia
Podczas planowania rozwiązania do wyodrębniania informacji należy wziąć pod uwagę wymagania i ograniczenia, które musi spełnić system. Niektóre kluczowe zagadnienia obejmują:
Charakterystykę dokumentu. Dokumenty, z których trzeba wyodrębnić dane, są podstawą całego rozwiązania. Rozważ następujące czynniki:
- Spójność układu: standardowe formularze preferują podejścia oparte na szablonach, podczas gdy potrzeba przetwarzania wielu formatów i układów może wymagać bardziej złożonego rozwiązania opartego na uczeniu maszynowym.
- Wymagania dotyczące przepustowości: Korzyści z przetwarzania dużej ilości danych wynikają ze stosowania modeli zautomatyzowanego uczenia maszynowego, które działają na zoptymalizowanym sprzęcie systemowym.
- Wymagania dotyczące dokładności: Krytyczne aplikacje mogą wymagać weryfikacji z udziałem człowieka.
Wymagania i ograniczenia dotyczące infrastruktury technicznej. Rozwiązanie będzie wymagać uruchomienia infrastruktury sprzętowej i programowej. Rozważ następujące czynniki:
- Bezpieczeństwo i prywatność: Przetwarzane dokumenty mogą zawierać wrażliwe lub poufne dane. Rozwiązanie musi obejmować odpowiednie środki w celu zabezpieczenia dostępu do danych i zgodności z dowolnymi wymaganiami branżowymi dotyczącymi przechowywania i przetwarzania chronionych danych.
- Moc przetwarzania: modele uczenia głębokiego i generowania sztucznej inteligencji często używane w rozwiązaniach do wyodrębniania informacji wymagają znaczących zasobów obliczeniowych.
- Wymagania dotyczące opóźnień: przetwarzanie w czasie rzeczywistym może ograniczyć złożoność modelu.
- Potrzeby dotyczące skalowalności: rozwiązania oparte na chmurze oferują lepszą skalowalność dla zmiennych obciążeń.
- Złożoność integracji: należy wziąć pod uwagę wymagania dotyczące zgodności interfejsu API i formatu danych.
Wskazówka
W wielu przypadkach rozwiązania wyodrębniania informacji można tworzyć przy użyciu usług oprogramowania, takich jak Azure Document Intelligence w narzędziach Microsoft Foundry Tools i Azure Content Understanding w narzędziach Microsoft Foundry Tools. Korzystanie z usług takich jak te, które stanowią podstawę rozwiązania, może znacznie zmniejszyć nakład pracy programistycznej, zapewniając jednocześnie wysoce skalowalną, sprawdzoną w branży wydajność, dokładność i możliwości integracji.