Extrair informações multimodal com o Azure Content Understanding
O Azure Content Understanding usa modelos de IA de última geração para analisar o conteúdo em vários formatos, incluindo:
- Formulários e documentos baseados em texto
- Áudio
- Imagens
- Vídeo
Analisando formulários e documentos
Os recursos de análise de documentos do Azure Content Understanding vão além da simples extração de texto baseada em OCR para incluir a extração baseada em esquema de campos e seus valores.
Por exemplo, suponha que você defina um esquema que inclua os campos comuns normalmente encontrados em uma fatura, como:
- Nome do fornecedor
- Número da fatura
- Data da fatura
- Nome do cliente
- Endereço personalizado
- Itens - os itens ordenados, cada um deles inclui:
- Descrição do item
- Preço unitário
- Quantidade encomendada
- Total do item de linha
- Subtotal da fatura
- Imposto
- Encargo de envio
- Total da fatura
Agora, suponha que você precise extrair essas informações da seguinte fatura:
Azure Content Understanding pode aplicar o esquema de fatura às suas faturas e identificar os campos correspondentes, mesmo quando rotulados com nomes diferentes ou não rotulados de modo algum. A análise resultante produz um resultado como este:
Para cada campo detectado, o valor é extraído da fatura:
- Nome do fornecedor: Adventure Works Cycles
- Número da fatura: 1234
- Data da fatura: 07/03/2025
- Nome do cliente: John Smith
- Endereço personalizado: 123 River Street, Marshtown, Inglaterra, GL1 234
-
Itens:
- Item 1:
- Descrição do item: Bicicleta de Corrida de 38" (Vermelho)
- Preço unitário: 1299,00
- Quantidade ordenada: 1
- Total do item de linha: 1299.00
- Item 2:
- Descrição do item: Capacete de ciclismo (preto)
- Preço unitário: 25,99
- Quantidade ordenada: 1
- Total do item de linha: 25.99
- Item 3:
- Descrição do item: Camisa de ciclismo (L)
- Preço unitário: 42,50
- Quantidade ordenada: 2
- Total do item de linha: 85.00
- Item 1:
- Subtotal da fatura: 1409.99
- Imposto: 140.99
- Encargo de envio: 35.00
- Total da fatura: 1585,98
Analisando áudio
Além de documentos baseados em texto, o Reconhecimento de Conteúdo do Azure é capaz de analisar arquivos de áudio para fornecer transcrições, resumos e outros insights importantes.
Suponha que você queira que a IA resuma seu correio de voz. Você pode definir um esquema de insights importantes a serem extraídos de cada chamada gravada, desta forma:
- Chamador
- Resumo da mensagem
- Ações solicitadas
- Número de retorno de chamada
- Detalhes de contato alternativos
Agora suponha que um chamador deixe a seguinte mensagem de voz:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Usar o Azure Content Understanding para analisar a gravação de áudio e aplicar seu esquema produz os seguintes resultados:
- Chamador: Ava da Contoso
- Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Ela solicitou um retorno de chamada ou um email para discutir as próximas etapas.
- Ações solicitadas: retorne ou envie um email para discutir as próximas etapas.
- Número de retorno de chamada: 555-12345
- Detalhes de contato alternativos: Ava@contoso.com
Analisando imagens e vídeo
O Azure Content Understanding dá suporte à análise de imagens e vídeos para extrair informações com base em um esquema personalizado. Por exemplo, você pode analisar imagens de uma videoconferência para extrair detalhes de presença, localização e outras informações.
Suponha que você tenha definido o seguinte esquema para uma imagem tirada por um sistema de mensagens colaborativo que combina participantes na sala e participantes remotos em um sistema de chamada de conferência:
- Localização
- Participantes pessoais
- Participantes remotos
- Total de participantes
Você pode usar o Azure Content Understanding para analisar a seguinte imagem da câmera da sala de conferência:
Ao aplicar o esquema anterior a essa imagem, o Azure Content Understanding produz os seguintes resultados:
- Local: Sala de conferência
- Participantes pessoais: 1
- Participantes remotos: 3
- Total de participantes: 4
Se, em vez de analisar a imagem parada, você criasse um analisador para o vídeo gravado da chamada, o esquema poderia incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles foi dito, um resumo da discussão e uma lista de ações atribuídas da reunião.