Wyodrębnianie informacji wielomodalnych za pomocą usługi Azure Content Understanding

{liczbaMinut} minut

Usługa Azure Content Understanding używa najnowocześniejszych modeli sztucznej inteligencji do analizowania zawartości w wielu formatach, w tym:

Formularze i dokumenty oparte na tekście
Dźwięk
Obrazy
wideo

Analizowanie formularzy i dokumentów

Możliwości analizy dokumentów usługi Azure Content Understanding wykraczają poza proste wyodrębnianie tekstu opartego na protokole OCR w celu uwzględnienia wyodrębniania pól i ich wartości na podstawie schematu.

Załóżmy na przykład, że zdefiniujesz schemat zawierający typowe pola, które zwykle znajdują się na fakturze, na przykład:

Nazwa dostawcy
Numer faktury
Data faktury
Nazwa klienta
Adres własny
Przedmioty — zamówione przedmioty, z których każdy obejmuje:
- Opis towaru
- Cena jednostkowa
- Zamówiona ilość
- Suma elementu wiersza
Suma częściowa faktury
Podatek
Opłata za wysyłkę
Suma faktury

Teraz załóżmy, że musisz wyodrębnić te informacje z następującej faktury:

Zdjęcie faktury.

Usługa Azure Content Understanding może zastosować schemat faktury do faktury i zidentyfikować odpowiednie pola, nawet jeśli są one oznaczone różnymi nazwami (lub w ogóle nie są oznaczone etykietami). Wynikowa analiza daje wynik podobny do następującego:

Zdjęcie przeanalizowanej faktury z wyróżnionymi wykrytymi polami.

Dla każdego wykrytego pola wartość jest wyodrębniona z faktury:

Nazwa dostawcy: Adventure Works Cycles
Numer faktury: 1234
Data faktury: 03.07.2025
Nazwa klienta: John Smith
Adres niestandardowy: 123 River Street, Marshtown, Anglia, GL1 234
Elementy:
- Pozycja 1:
  - Opis elementu: 38" Racing Bike (czerwony)
  - Cena jednostkowa: 1299,00
  - Zamówiona ilość: 1
  - Suma elementu wiersza: 1299,00
- Element 2:
  - Opis przedmiotu: Kask rowerowy (Czarny)
  - Cena jednostkowa: 25,99
  - Zamówiona ilość: 1
  - Suma elementu wiersza: 25,99
- Element 3:
  - Opis elementu: Koszulka rowerowa (L)
  - Cena jednostkowa: 42,50
  - Zamówiona ilość: 2
  - Suma elementu wiersza: 85,00
Suma częściowa faktury: 1409.99
Podatek: 140.99
Opłata za wysyłkę: 35.00
Suma faktury: 1585,98

Analizowanie dźwięku

Oprócz dokumentów tekstowych usługa Azure Content Understanding umożliwia analizowanie plików audio w celu zapewnienia transkrypcji, podsumowań i innych kluczowych szczegółowych informacji.

Załóżmy, że chcesz mieć sztuczną inteligencję podsumowującą pocztę głosową. Możesz zdefiniować schemat kluczowych informacji do wyodrębnienia z każdej zarejestrowanej rozmowy, na przykład:

Dzwoniący
Podsumowanie wiadomości
Żądane akcje
Numer do oddzwonienia
Alternatywne dane kontaktowe

Teraz załóżmy, że obiekt wywołujący pozostawia następujący komunikat głosowy:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Użycie usługi Azure Content Understanding do analizowania nagrania audio i zastosowania schematu daje następujące wyniki:

Dzwoniący: Ava z Contoso
Podsumowanie komunikatu: Ava z firmy Contoso zadzwoniła, aby kontynuować spotkanie i wspomniała, że mogą spełnić oczekiwania dotyczące ceny. Poprosiła o oddzwonienie lub wiadomość e-mail w celu omówienia następnych kroków.
Żądane działania: Oddzwoń lub wyślij wiadomość e-mail, aby omówić następne kroki.
Numer telefonu do oddzwonienia: 555-12345
Alternatywne dane kontaktowe: Ava@contoso.com

Analizowanie obrazów i wideo

Usługa Azure Content Understanding obsługuje analizę obrazów i wideo w celu wyodrębnienia informacji na podstawie niestandardowego schematu. Możesz na przykład analizować obrazy konferencji wideo, aby wyodrębnić szczegóły obecności, lokalizacji i innych informacji.

Załóżmy, że zdefiniowano następujący schemat dla zdjęcia zrobionego przez system współpracy w zakresie wiadomości, który łączy uczestników obecnych i uczestników zdalnych w systemie konferencyjnym.

Lokalizacja
Uczestnicy obecni fizycznie
Uczestnicy zdalni
Łączna liczba uczestników

Usługa Azure Content Understanding umożliwia analizowanie następującego obrazu z kamery sali konferencyjnej:

Zdjęcie osoby w sali konferencyjnej podczas rozmowy z trzema zdalnymi uczestnikami.

Podczas stosowania powyższego schematu do tego obrazu usługa Azure Content Understanding generuje następujące wyniki:

Lokalizacja: Sala konferencyjna
Uczestnicy osobiście: 1
Uczestnicy zdalni: 3
Łączna liczba uczestników: 4

Jeśli zamiast analizować obraz nieruchomy, stworzyłbyś analizator dla nagranego wideo połączenia; schemat mógłby zawierać dane dotyczące frekwencji w różnych odstępach czasu, szczegóły dotyczące osób mówiących podczas rozmowy i to, co powiedzieli, podsumowanie dyskusji oraz listę przypisanych działań ze spotkania.

Sprzężenie zwrotne

Czy ta strona była pomocna?