Extrair informação multimodal com Azure Content Understanding
O Azure Content Understanding utiliza modelos de IA de última geração para analisar conteúdos em múltiplos formatos, incluindo:
- Formulários e documentos baseados em texto
- Áudio
- Imagens
- Vídeos
Análise de formulários e documentos
As capacidades de análise de documentos do Azure Content Understanding vão além da simples extração de texto baseada em OCR, incluindo a extração de campos e valores baseada em esquemas.
Por exemplo, suponha que você defina um esquema que inclua os campos comuns normalmente encontrados em uma fatura, como:
- Nome do fornecedor
- Número da fatura
- Data da fatura
- Nome do cliente
- Endereço personalizado
- Itens - os itens encomendados, cada um dos quais inclui:
- Descrição do item
- Preço unitário
- Quantidade encomendada
- Total do item de linha
- Subtotal da fatura
- Impostos
- Taxa de envio
- Total da fatura
Agora suponha que você precise extrair essas informações da seguinte fatura:
O Azure Content Understanding pode aplicar o esquema da fatura à sua fatura e identificar os campos correspondentes, mesmo quando estão rotulados com nomes diferentes (ou nem sequer estão rotulados). A análise resultante produz um resultado como este:
Para cada campo detetado, o valor é extraído da fatura:
- Nome do fornecedor: Adventure Works Cycles
- Número da fatura: 1234
- Data da fatura: 03/07/2025
- Nome do cliente: John Smith
- Endereço personalizado: 123 River Street, Marshtown, England, GL1 234
-
Itens:
- Ponto 1:
- Descrição do artigo: 38" Racing Bike (Vermelho)
- Preço unitário: 1299.00
- Quantidade encomendada: 1
- Total de itens da linha: 1299,00
- Ponto 2:
- Descrição do artigo: Capacete de ciclismo (preto)
- Preço unitário: 25.99
- Quantidade encomendada: 1
- Total de itens da linha: 25,99
- Ponto 3:
- Descrição do artigo: Camisa de ciclismo (L)
- Preço unitário: 42.50
- Quantidade encomendada: 2
- Total de itens de linha: 85,00
- Ponto 1:
- Subtotal da fatura: 1409,99
- Imposto: 140,99
- Taxa de envio: 35.00
- Total da fatura: 1585,98
Análise de áudio
Para além dos documentos baseados em texto, o Azure Content Understanding é capaz de analisar ficheiros de áudio para fornecer transcrições, resumos e outros insights-chave.
Suponha que pretende que a IA resuma o seu correio de voz. Você pode definir um esquema de insights importantes para extrair de cada chamada gravada, da seguinte forma:
- Autor da chamada
- Resumo da mensagem
- Ações solicitadas
- Número para retorno de chamada
- Dados de contacto alternativos
Agora suponha, um chamador deixa a seguinte mensagem de voz:
Hi, this is Ava from Contoso.
Just calling to follow up on our meeting last week.
I wanted to let you know that I've run the numbers and I think we can meet your price expectations.
Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.
Thanks, bye!
Usar o Azure Content Understanding para analisar a gravação áudio e aplicar o seu esquema produz os seguintes resultados:
- Chamador: Ava da Contoso
- Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Ela solicitou um retorno de chamada ou um e-mail para discutir os próximos passos.
- Ações solicitadas: ligue de volta ou envie um e-mail para discutir as próximas etapas.
- Número de retorno: 555-12345
- Dados de contacto alternativos: Ava@contoso.com
Análise de imagens e vídeos
O Azure Content Understanding suporta a análise de imagens e vídeo para extrair informação com base num esquema personalizado. Por exemplo, você pode analisar imagens de uma videoconferência para extrair detalhes de presença, localização e outras informações.
Suponha que você tenha definido o seguinte esquema para uma imagem tirada por um sistema de mensagens colaborativo que combina participantes na sala e participantes remotos em um sistema de chamada em conferência:
- Localização
- Participantes presenciais
- Participantes remotos
- Total de participantes
Pode usar o Azure Content Understanding para analisar a seguinte imagem estática da câmara da sala de reuniões:
Ao aplicar o esquema anterior a esta imagem, o Azure Content Understanding produz os seguintes resultados:
- Local: Sala de conferências
- Participantes presenciais: 1
- Participantes remotos: 3
- Total de participantes: 4
Se em vez de analisar a imagem fixa, você fosse criar um analisador para vídeo gravado da chamada; O esquema pode incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles disseram, um resumo da discussão e uma lista de ações atribuídas da reunião.