Wyodrębnianie informacji wielomodalnych za pomocą usługi Azure Content Understanding
Usługa Azure Content Understanding używa najnowocześniejszych modeli sztucznej inteligencji do analizowania zawartości w wielu formatach, w tym:
- Formularze i dokumenty oparte na tekście
- Dźwięk
- Obrazy
- wideo
Analizowanie formularzy i dokumentów
Możliwości analizy dokumentów usługi Azure Content Understanding wykraczają poza proste wyodrębnianie tekstu opartego na protokole OCR w celu uwzględnienia wyodrębniania pól i ich wartości na podstawie schematu.
Załóżmy na przykład, że zdefiniujesz schemat zawierający typowe pola, które zwykle znajdują się na fakturze, na przykład:
- Nazwa dostawcy
- Numer faktury
- Data faktury
- Nazwa klienta
- Adres własny
- Przedmioty — zamówione przedmioty, z których każdy obejmuje:
- Opis towaru
- Cena jednostkowa
- Zamówiona ilość
- Suma elementu wiersza
- Suma częściowa faktury
- Podatek
- Opłata za wysyłkę
- Suma faktury
Teraz załóżmy, że musisz wyodrębnić te informacje z następującej faktury:
Usługa Azure Content Understanding może zastosować schemat faktury do faktury i zidentyfikować odpowiednie pola, nawet jeśli są one oznaczone różnymi nazwami (lub w ogóle nie są oznaczone etykietami). Wynikowa analiza daje wynik podobny do następującego:
Dla każdego wykrytego pola wartość jest wyodrębniona z faktury:
- Nazwa dostawcy: Adventure Works Cycles
- Numer faktury: 1234
- Data faktury: 03.07.2025
- Nazwa klienta: John Smith
- Adres niestandardowy: 123 River Street, Marshtown, Anglia, GL1 234
-
Elementy:
- Pozycja 1:
- Opis elementu: 38" Racing Bike (czerwony)
- Cena jednostkowa: 1299,00
- Zamówiona ilość: 1
- Suma elementu wiersza: 1299,00
- Element 2:
- Opis przedmiotu: Kask rowerowy (Czarny)
- Cena jednostkowa: 25,99
- Zamówiona ilość: 1
- Suma elementu wiersza: 25,99
- Element 3:
- Opis elementu: Koszulka rowerowa (L)
- Cena jednostkowa: 42,50
- Zamówiona ilość: 2
- Suma elementu wiersza: 85,00
- Pozycja 1:
- Suma częściowa faktury: 1409.99
- Podatek: 140.99
- Opłata za wysyłkę: 35.00
- Suma faktury: 1585,98
Analizowanie dźwięku
Oprócz dokumentów tekstowych usługa Azure Content Understanding umożliwia analizowanie plików audio w celu zapewnienia transkrypcji, podsumowań i innych kluczowych szczegółowych informacji.
Załóżmy, że chcesz mieć sztuczną inteligencję podsumowującą pocztę głosową. Możesz zdefiniować schemat kluczowych informacji do wyodrębnienia z każdej zarejestrowanej rozmowy, na przykład:
- Dzwoniący
- Podsumowanie wiadomości
- Żądane akcje
- Numer do oddzwonienia
- Alternatywne dane kontaktowe
Teraz załóżmy, że obiekt wywołujący pozostawia następujący komunikat głosowy:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Użycie usługi Azure Content Understanding do analizowania nagrania audio i zastosowania schematu daje następujące wyniki:
- Dzwoniący: Ava z Contoso
- Podsumowanie komunikatu: Ava z firmy Contoso zadzwoniła, aby kontynuować spotkanie i wspomniała, że mogą spełnić oczekiwania dotyczące ceny. Poprosiła o oddzwonienie lub wiadomość e-mail w celu omówienia następnych kroków.
- Żądane działania: Oddzwoń lub wyślij wiadomość e-mail, aby omówić następne kroki.
- Numer telefonu do oddzwonienia: 555-12345
- Alternatywne dane kontaktowe: Ava@contoso.com
Analizowanie obrazów i wideo
Usługa Azure Content Understanding obsługuje analizę obrazów i wideo w celu wyodrębnienia informacji na podstawie niestandardowego schematu. Możesz na przykład analizować obrazy konferencji wideo, aby wyodrębnić szczegóły obecności, lokalizacji i innych informacji.
Załóżmy, że zdefiniowano następujący schemat dla zdjęcia zrobionego przez system współpracy w zakresie wiadomości, który łączy uczestników obecnych i uczestników zdalnych w systemie konferencyjnym.
- Lokalizacja
- Uczestnicy obecni fizycznie
- Uczestnicy zdalni
- Łączna liczba uczestników
Usługa Azure Content Understanding umożliwia analizowanie następującego obrazu z kamery sali konferencyjnej:
Podczas stosowania powyższego schematu do tego obrazu usługa Azure Content Understanding generuje następujące wyniki:
- Lokalizacja: Sala konferencyjna
- Uczestnicy osobiście: 1
- Uczestnicy zdalni: 3
- Łączna liczba uczestników: 4
Jeśli zamiast analizować obraz nieruchomy, stworzyłbyś analizator dla nagranego wideo połączenia; schemat mógłby zawierać dane dotyczące frekwencji w różnych odstępach czasu, szczegóły dotyczące osób mówiących podczas rozmowy i to, co powiedzieli, podsumowanie dyskusji oraz listę przypisanych działań ze spotkania.