Wyodrębnianie informacji wielomodalnych za pomocą usługi Azure Content Understanding

Zakończone

Usługa Azure Content Understanding używa najnowocześniejszych modeli sztucznej inteligencji do analizowania zawartości w wielu formatach, w tym:

  • Formularze i dokumenty oparte na tekście
  • Dźwięk
  • Obrazy
  • wideo

Analizowanie formularzy i dokumentów

Możliwości analizy dokumentów usługi Azure Content Understanding wykraczają poza proste wyodrębnianie tekstu opartego na protokole OCR w celu uwzględnienia wyodrębniania pól i ich wartości na podstawie schematu.

Załóżmy na przykład, że zdefiniujesz schemat zawierający typowe pola, które zwykle znajdują się na fakturze, na przykład:

  • Nazwa dostawcy
  • Numer faktury
  • Data faktury
  • Nazwa klienta
  • Adres własny
  • Przedmioty — zamówione przedmioty, z których każdy obejmuje:
    • Opis towaru
    • Cena jednostkowa
    • Zamówiona ilość
    • Suma elementu wiersza
  • Suma częściowa faktury
  • Podatek
  • Opłata za wysyłkę
  • Suma faktury

Teraz załóżmy, że musisz wyodrębnić te informacje z następującej faktury:

Zdjęcie faktury.

Usługa Azure Content Understanding może zastosować schemat faktury do faktury i zidentyfikować odpowiednie pola, nawet jeśli są one oznaczone różnymi nazwami (lub w ogóle nie są oznaczone etykietami). Wynikowa analiza daje wynik podobny do następującego:

Zdjęcie przeanalizowanej faktury z wyróżnionymi wykrytymi polami.

Dla każdego wykrytego pola wartość jest wyodrębniona z faktury:

  • Nazwa dostawcy: Adventure Works Cycles
  • Numer faktury: 1234
  • Data faktury: 03.07.2025
  • Nazwa klienta: John Smith
  • Adres niestandardowy: 123 River Street, Marshtown, Anglia, GL1 234
  • Elementy:
    • Pozycja 1:
      • Opis elementu: 38" Racing Bike (czerwony)
      • Cena jednostkowa: 1299,00
      • Zamówiona ilość: 1
      • Suma elementu wiersza: 1299,00
    • Element 2:
      • Opis przedmiotu: Kask rowerowy (Czarny)
      • Cena jednostkowa: 25,99
      • Zamówiona ilość: 1
      • Suma elementu wiersza: 25,99
    • Element 3:
      • Opis elementu: Koszulka rowerowa (L)
      • Cena jednostkowa: 42,50
      • Zamówiona ilość: 2
      • Suma elementu wiersza: 85,00
  • Suma częściowa faktury: 1409.99
  • Podatek: 140.99
  • Opłata za wysyłkę: 35.00
  • Suma faktury: 1585,98

Analizowanie dźwięku

Oprócz dokumentów tekstowych usługa Azure Content Understanding umożliwia analizowanie plików audio w celu zapewnienia transkrypcji, podsumowań i innych kluczowych szczegółowych informacji.

Załóżmy, że chcesz mieć sztuczną inteligencję podsumowującą pocztę głosową. Możesz zdefiniować schemat kluczowych informacji do wyodrębnienia z każdej zarejestrowanej rozmowy, na przykład:

  • Dzwoniący
  • Podsumowanie wiadomości
  • Żądane akcje
  • Numer do oddzwonienia
  • Alternatywne dane kontaktowe

Teraz załóżmy, że obiekt wywołujący pozostawia następujący komunikat głosowy:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Użycie usługi Azure Content Understanding do analizowania nagrania audio i zastosowania schematu daje następujące wyniki:

  • Dzwoniący: Ava z Contoso
  • Podsumowanie komunikatu: Ava z firmy Contoso zadzwoniła, aby kontynuować spotkanie i wspomniała, że mogą spełnić oczekiwania dotyczące ceny. Poprosiła o oddzwonienie lub wiadomość e-mail w celu omówienia następnych kroków.
  • Żądane działania: Oddzwoń lub wyślij wiadomość e-mail, aby omówić następne kroki.
  • Numer telefonu do oddzwonienia: 555-12345
  • Alternatywne dane kontaktowe: Ava@contoso.com

Analizowanie obrazów i wideo

Usługa Azure Content Understanding obsługuje analizę obrazów i wideo w celu wyodrębnienia informacji na podstawie niestandardowego schematu. Możesz na przykład analizować obrazy konferencji wideo, aby wyodrębnić szczegóły obecności, lokalizacji i innych informacji.

Załóżmy, że zdefiniowano następujący schemat dla zdjęcia zrobionego przez system współpracy w zakresie wiadomości, który łączy uczestników obecnych i uczestników zdalnych w systemie konferencyjnym.

  • Lokalizacja
  • Uczestnicy obecni fizycznie
  • Uczestnicy zdalni
  • Łączna liczba uczestników

Usługa Azure Content Understanding umożliwia analizowanie następującego obrazu z kamery sali konferencyjnej:

Zdjęcie osoby w sali konferencyjnej podczas rozmowy z trzema zdalnymi uczestnikami.

Podczas stosowania powyższego schematu do tego obrazu usługa Azure Content Understanding generuje następujące wyniki:

  • Lokalizacja: Sala konferencyjna
  • Uczestnicy osobiście: 1
  • Uczestnicy zdalni: 3
  • Łączna liczba uczestników: 4

Jeśli zamiast analizować obraz nieruchomy, stworzyłbyś analizator dla nagranego wideo połączenia; schemat mógłby zawierać dane dotyczące frekwencji w różnych odstępach czasu, szczegóły dotyczące osób mówiących podczas rozmowy i to, co powiedzieli, podsumowanie dyskusji oraz listę przypisanych działań ze spotkania.