Extrair informação multimodal com Azure Content Understanding

Concluído

O Azure Content Understanding utiliza modelos de IA de última geração para analisar conteúdos em múltiplos formatos, incluindo:

  • Formulários e documentos baseados em texto
  • Áudio
  • Imagens
  • Vídeos

Análise de formulários e documentos

As capacidades de análise de documentos do Azure Content Understanding vão além da simples extração de texto baseada em OCR, incluindo a extração de campos e valores baseada em esquemas.

Por exemplo, suponha que você defina um esquema que inclua os campos comuns normalmente encontrados em uma fatura, como:

  • Nome do fornecedor
  • Número da fatura
  • Data da fatura
  • Nome do cliente
  • Endereço personalizado
  • Itens - os itens encomendados, cada um dos quais inclui:
    • Descrição do item
    • Preço unitário
    • Quantidade encomendada
    • Total do item de linha
  • Subtotal da fatura
  • Impostos
  • Taxa de envio
  • Total da fatura

Agora suponha que você precise extrair essas informações da seguinte fatura:

Fotografia de uma fatura.

O Azure Content Understanding pode aplicar o esquema da fatura à sua fatura e identificar os campos correspondentes, mesmo quando estão rotulados com nomes diferentes (ou nem sequer estão rotulados). A análise resultante produz um resultado como este:

Fotografia de uma fatura analisada com campos detetados realçados.

Para cada campo detetado, o valor é extraído da fatura:

  • Nome do fornecedor: Adventure Works Cycles
  • Número da fatura: 1234
  • Data da fatura: 03/07/2025
  • Nome do cliente: John Smith
  • Endereço personalizado: 123 River Street, Marshtown, England, GL1 234
  • Itens:
    • Ponto 1:
      • Descrição do artigo: 38" Racing Bike (Vermelho)
      • Preço unitário: 1299.00
      • Quantidade encomendada: 1
      • Total de itens da linha: 1299,00
    • Ponto 2:
      • Descrição do artigo: Capacete de ciclismo (preto)
      • Preço unitário: 25.99
      • Quantidade encomendada: 1
      • Total de itens da linha: 25,99
    • Ponto 3:
      • Descrição do artigo: Camisa de ciclismo (L)
      • Preço unitário: 42.50
      • Quantidade encomendada: 2
      • Total de itens de linha: 85,00
  • Subtotal da fatura: 1409,99
  • Imposto: 140,99
  • Taxa de envio: 35.00
  • Total da fatura: 1585,98

Análise de áudio

Para além dos documentos baseados em texto, o Azure Content Understanding é capaz de analisar ficheiros de áudio para fornecer transcrições, resumos e outros insights-chave.

Suponha que pretende que a IA resuma o seu correio de voz. Você pode definir um esquema de insights importantes para extrair de cada chamada gravada, da seguinte forma:

  • Autor da chamada
  • Resumo da mensagem
  • Ações solicitadas
  • Número para retorno de chamada
  • Dados de contacto alternativos

Agora suponha, um chamador deixa a seguinte mensagem de voz:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Usar o Azure Content Understanding para analisar a gravação áudio e aplicar o seu esquema produz os seguintes resultados:

  • Chamador: Ava da Contoso
  • Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Ela solicitou um retorno de chamada ou um e-mail para discutir os próximos passos.
  • Ações solicitadas: ligue de volta ou envie um e-mail para discutir as próximas etapas.
  • Número de retorno: 555-12345
  • Dados de contacto alternativos: Ava@contoso.com

Análise de imagens e vídeos

O Azure Content Understanding suporta a análise de imagens e vídeo para extrair informação com base num esquema personalizado. Por exemplo, você pode analisar imagens de uma videoconferência para extrair detalhes de presença, localização e outras informações.

Suponha que você tenha definido o seguinte esquema para uma imagem tirada por um sistema de mensagens colaborativo que combina participantes na sala e participantes remotos em um sistema de chamada em conferência:

  • Localização
  • Participantes presenciais
  • Participantes remotos
  • Total de participantes

Pode usar o Azure Content Understanding para analisar a seguinte imagem estática da câmara da sala de reuniões:

Fotografia de uma pessoa numa sala de conferências numa chamada com três participantes remotos.

Ao aplicar o esquema anterior a esta imagem, o Azure Content Understanding produz os seguintes resultados:

  • Local: Sala de conferências
  • Participantes presenciais: 1
  • Participantes remotos: 3
  • Total de participantes: 4

Se em vez de analisar a imagem fixa, você fosse criar um analisador para vídeo gravado da chamada; O esquema pode incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles disseram, um resumo da discussão e uma lista de ações atribuídas da reunião.