Extracción de información multimodal con Azure Content Understanding
Azure Content Understanding usa modelos de inteligencia artificial de última generación para analizar contenido en varios formatos, entre los que se incluyen:
- Formularios y documentos basados en texto
- Sonido
- Imágenes
- Vídeo
Análisis de formularios y documentos
Las funcionalidades de análisis de documentos de Azure Content Understanding van más allá de la simple extracción de texto basada en OCR para incluir la extracción basada en esquemas de campos y sus valores.
Por ejemplo, supongamos que define un esquema que incluye los campos comunes que normalmente se encuentran en una factura, como:
- Nombre de proveedor
- Número de factura
- Fecha de la factura
- Nombre de cliente
- Dirección personalizada
- Elementos: los elementos ordenados, cada uno de los cuales incluye:
- Descripción de artículo
- Precio unitario
- Cantidad ordenada
- Total de elementos de línea
- Subtotal de factura
- Impuestos
- Cargo de envío
- Total de factura
Ahora supongamos que necesita extraer esta información de la siguiente factura:
Azure Content Understanding puede aplicar el esquema de factura a la factura e identificar los campos correspondientes, incluso cuando se etiquetan con nombres diferentes (o no están etiquetados). El análisis resultante genera un resultado similar al siguiente:
Para cada campo detectado, el valor se extrae de la factura:
- Nombre del proveedor: Adventure Works Cycles
- Número de factura: 1234
- Fecha de factura: 07/03/2025
- Nombre del cliente: John Smith
- Dirección personalizada: 123 River Street, Marshtown, Inglaterra, GL1 234
-
Elementos:
- Elemento 1:
- Descripción del artículo: 38" Racing Bike (Rojo)
- Precio unitario: 1299,00
- Cantidad ordenada: 1
- Total del artículo del pedido: 1299,00
- Elemento 2:
- Descripción del artículo: Casco de ciclismo (negro)
- Precio unitario: 25,99
- Cantidad ordenada: 1
- Total del artículo del pedido: 25,99
- Artículo 3:
- Descripción del elemento: Camiseta de ciclismo (L)
- Precio unitario: 42,50
- Cantidad ordenada: 2
- Total del artículo del pedido: 85,00
- Elemento 1:
- Subtotal de factura: 1409.99
- Impuesto: 140.99
- Cargo de envío: 35.00
- Total de factura: 1585,98
Análisis de audio
Además de los documentos basados en texto, Azure Content Understanding es capaz de analizar archivos de audio para proporcionar transcripciones, resúmenes y otras conclusiones clave.
Supongamos que desea que la inteligencia artificial resuma el correo de voz. Puede definir un esquema de información clave para extraer de cada llamada grabada, de la siguiente manera:
- Llamante
- Resumen de mensajes
- Acciones solicitadas
- Número de devolución de llamada
- Detalles de contacto alternativos
Supongamos que un autor de la llamada le deja el siguiente mensaje de voz:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
El uso de Azure Content Understanding para analizar la grabación de audio y aplicar el esquema genera los siguientes resultados:
- Autor de la llamada: Ava de Contoso
- Resumen de mensajes: Ava de Contoso llamó para realizar un seguimiento de una reunión y mencionó que pueden cumplir las expectativas de precio. Solicitó una devolución de llamada o un correo electrónico para analizar los pasos siguientes.
- Acciones solicitadas: vuelva a llamar o envíe un correo electrónico para analizar los pasos siguientes.
- Número de devolución de llamada: 555-12345
- Detalles de contacto alternativos: Ava@contoso.com
Análisis de imágenes y vídeos
Azure Content Understanding admite el análisis de imágenes y vídeo para extraer información basada en un esquema personalizado. Por ejemplo, podría analizar imágenes de una videoconferencia para extraer detalles de asistencia, ubicación y otra información.
Supongamos que ha definido el esquema siguiente para una imagen tomada por un sistema de mensajería colaborativa que combina asistentes en la sala y asistentes remotos en un sistema de llamadas de conferencia:
- Ubicación
- Asistentes en persona
- Asistentes remotos
- Total de asistentes
Puede usar Azure Content Understanding para analizar la siguiente imagen de la cámara de la sala de conferencias:
Al aplicar el esquema anterior a esta imagen, Azure Content Understanding genera los siguientes resultados:
- Ubicación: Sala de conferencias
- Asistentes en persona: 1
- Asistentes remotos: 3
- Total de asistentes: 4
Si en lugar de analizar la imagen fija, era crear un analizador para el vídeo grabado de la llamada; el esquema podría incluir recuentos de asistencia en varios intervalos de tiempo, detalles de quién habló durante la llamada y lo que dijeron, un resumen de la discusión y una lista de acciones asignadas de la reunión.