Extrahieren von multimodalen Informationen mit Azure Content Understanding
Azure Content Understanding verwendet modernste KI-Modelle, um Inhalte in mehreren Formaten zu analysieren, darunter:
- Textbasierte Formulare und Dokumente
- Audio
- Bilder
- Video
Analysieren von Formularen und Dokumenten
Die Dokumentanalysefunktionen von Azure Content Understanding gehen über die einfache OCR-basierte Textextraktion hinaus, um die schemabasierte Extraktion von Feldern und deren Werten einzuschließen.
Angenommen, Sie definieren ein Schema, das die üblichen Felder enthält, die normalerweise in einer Rechnung enthalten sind, z. B.:
- Lieferantenname
- Rechnungsnummer
- Rechnungsdatum
- Kundenname
- Benutzerdefinierte Adresse
- Artikel - die bestellten Elemente, die jeweils Folgendes umfassen:
- Artikelbeschreibung
- Einzelpreis
- Bestellmenge
- Summe der Bestellpositionen
- Zwischensumme der Rechnung
- Steuer
- Versandkosten
- Rechnungssumme
Angenommen, Sie müssen diese Informationen aus der folgenden Rechnung extrahieren:
Azure Content Understanding kann das Rechnungsschema auf Ihre Rechnung anwenden und die entsprechenden Felder identifizieren, auch wenn sie mit unterschiedlichen Namen (oder überhaupt nicht gekennzeichnet) gekennzeichnet sind. Die resultierende Analyse erzeugt ein Ergebnis wie folgt:
Für jedes erkannte Feld wird der Wert aus der Rechnung extrahiert:
- Anbietername: Adventure Works Cycles
- Rechnungsnummer: 1234
- Rechnungsdatum: 03.07.2025
- Kundenname: John Smith
- Benutzerdefinierte Adresse: 123 River Street, Marshtown, England, GL1 234
-
Elemente:
- Artikel 1:
- Artikelbeschreibung: 38" Racing Bike (Rot)
- Einzelpreis: 1299.00
- Bestellte Menge: 1
- Summe der Bestellpositionen: 1299,00
- Artikel 2:
- Artikelbeschreibung: Fahrradhelm (Schwarz)
- Einzelpreis: 25,99
- Bestellte Menge: 1
- Summe der Bestellpositionen: 25,99
- Artikel 3:
- Artikelbeschreibung: Fahrradhemd (L)
- Einzelpreis: 42,50
- Bestellte Menge: 2
- Summe der Bestellpositionen: 85,00
- Artikel 1:
- Zwischensumme der Rechnung: 1409.99
- Steuer: 140.99
- Versandkosten: 35.00
- Rechnungssumme: 1585.98
Analysieren von Audio
Zusätzlich zu textbasierten Dokumenten kann Azure Content Understanding Audiodateien analysieren, um Transkriptionen, Zusammenfassungen und andere wichtige Erkenntnisse bereitzustellen.
Angenommen, Sie möchten KI ihre Voicemail zusammenfassen lassen. Sie können ein Schema von wichtigen Erkenntnissen definieren, das aus jedem aufgezeichneten Anruf extrahiert werden soll, z. B.:
- Anrufer
- Nachrichtenzusammenfassung
- Angeforderte Aktionen
- Rückrufnummer
- Alternative Kontaktdetails
Angenommen, ein Anrufer hinterlässt Ihnen die folgende Sprachnachricht:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Wenn Sie Azure Content Understanding verwenden, um die Audioaufzeichnung zu analysieren und Ihr Schema anzuwenden, werden die folgenden Ergebnisse erzielt:
- Anrufer: Ava von Contoso
- Nachrichtenzusammenfassung: Ava von Contoso hat wegen der Nachverfolgung einer Besprechung angerufen und erwähnt, dass sie den Preiserwartungen entsprechen können. Sie hat einen Rückruf oder eine E-Mail angefordert, um die nächsten Schritte zu besprechen.
- Angeforderte Aktionen: Rufen Sie zurück oder schicken Sie eine E-Mail, um die nächsten Schritte zu besprechen.
- Rückrufnummer: 555-12345
- Alternative Kontaktdetails: Ava@contoso.com
Analysieren von Bildern und Videos
Azure Content Understanding unterstützt die Analyse von Bildern und Videos, um Informationen basierend auf einem benutzerdefinierten Schema zu extrahieren. Sie können z. B. Bilder einer Videokonferenz analysieren, um Details der Anwesenheit, des Standorts und anderer Informationen zu extrahieren.
Angenommen, Sie haben das folgende Schema für ein Bild definiert, das von einem kollaborativen Messagingsystem aufgenommen wurde, das Teilnehmer im Raum und Remoteteilnehmer in einem Telefonkonferenzsystem kombiniert:
- Standort
- Teilnehmende
- Remoteteilnehmer
- Teilnehmer insgesamt
Sie können Azure Content Understanding verwenden, um das folgende Stillbild aus der Konferenzraumkamera zu analysieren:
Beim Anwenden des vorherigen Schemas auf dieses Image erzeugt Azure Content Understanding die folgenden Ergebnisse:
- Ort: Konferenzraum
- Persönliche Teilnehmer: 1
- Remoteteilnehmer: 3
- Teilnehmer insgesamt: 4
Wenn Sie das stille Bild nicht analysieren möchten, sollten Sie einen Analyzer für aufgezeichnetes Video des Anrufs erstellen. Das Schema kann Anwesenheitszahlen in verschiedenen Zeitintervallen, Details darüber enthalten, wer während des Anrufs gesprochen hat und was sie gesagt haben, eine Zusammenfassung der Diskussion und eine Liste der zugewiesenen Aktionen aus der Besprechung.