Extrair informações multimodal com o Azure Content Understanding

Concluído

O Azure Content Understanding usa modelos de IA de última geração para analisar o conteúdo em vários formatos, incluindo:

  • Formulários e documentos baseados em texto
  • Áudio
  • Imagens
  • Vídeo

Analisando formulários e documentos

Os recursos de análise de documentos do Azure Content Understanding vão além da simples extração de texto baseada em OCR para incluir a extração baseada em esquema de campos e seus valores.

Por exemplo, suponha que você defina um esquema que inclua os campos comuns normalmente encontrados em uma fatura, como:

  • Nome do fornecedor
  • Número da fatura
  • Data da fatura
  • Nome do cliente
  • Endereço personalizado
  • Itens - os itens ordenados, cada um deles inclui:
    • Descrição do item
    • Preço unitário
    • Quantidade encomendada
    • Total do item de linha
  • Subtotal da fatura
  • Imposto
  • Encargo de envio
  • Total da fatura

Agora, suponha que você precise extrair essas informações da seguinte fatura:

Foto de uma fatura.

Azure Content Understanding pode aplicar o esquema de fatura às suas faturas e identificar os campos correspondentes, mesmo quando rotulados com nomes diferentes ou não rotulados de modo algum. A análise resultante produz um resultado como este:

Fotografia de uma fatura analisada com campos detectados realçados.

Para cada campo detectado, o valor é extraído da fatura:

  • Nome do fornecedor: Adventure Works Cycles
  • Número da fatura: 1234
  • Data da fatura: 07/03/2025
  • Nome do cliente: John Smith
  • Endereço personalizado: 123 River Street, Marshtown, Inglaterra, GL1 234
  • Itens:
    • Item 1:
      • Descrição do item: Bicicleta de Corrida de 38" (Vermelho)
      • Preço unitário: 1299,00
      • Quantidade ordenada: 1
      • Total do item de linha: 1299.00
    • Item 2:
      • Descrição do item: Capacete de ciclismo (preto)
      • Preço unitário: 25,99
      • Quantidade ordenada: 1
      • Total do item de linha: 25.99
    • Item 3:
      • Descrição do item: Camisa de ciclismo (L)
      • Preço unitário: 42,50
      • Quantidade ordenada: 2
      • Total do item de linha: 85.00
  • Subtotal da fatura: 1409.99
  • Imposto: 140.99
  • Encargo de envio: 35.00
  • Total da fatura: 1585,98

Analisando áudio

Além de documentos baseados em texto, o Reconhecimento de Conteúdo do Azure é capaz de analisar arquivos de áudio para fornecer transcrições, resumos e outros insights importantes.

Suponha que você queira que a IA resuma seu correio de voz. Você pode definir um esquema de insights importantes a serem extraídos de cada chamada gravada, desta forma:

  • Chamador
  • Resumo da mensagem
  • Ações solicitadas
  • Número de retorno de chamada
  • Detalhes de contato alternativos

Agora suponha que um chamador deixe a seguinte mensagem de voz:

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Usar o Azure Content Understanding para analisar a gravação de áudio e aplicar seu esquema produz os seguintes resultados:

  • Chamador: Ava da Contoso
  • Resumo da mensagem: Ava da Contoso ligou para acompanhar uma reunião e mencionou que eles podem atender às expectativas de preço. Ela solicitou um retorno de chamada ou um email para discutir as próximas etapas.
  • Ações solicitadas: retorne ou envie um email para discutir as próximas etapas.
  • Número de retorno de chamada: 555-12345
  • Detalhes de contato alternativos: Ava@contoso.com

Analisando imagens e vídeo

O Azure Content Understanding dá suporte à análise de imagens e vídeos para extrair informações com base em um esquema personalizado. Por exemplo, você pode analisar imagens de uma videoconferência para extrair detalhes de presença, localização e outras informações.

Suponha que você tenha definido o seguinte esquema para uma imagem tirada por um sistema de mensagens colaborativo que combina participantes na sala e participantes remotos em um sistema de chamada de conferência:

  • Localização
  • Participantes pessoais
  • Participantes remotos
  • Total de participantes

Você pode usar o Azure Content Understanding para analisar a seguinte imagem da câmera da sala de conferência:

Fotografia de uma pessoa em uma sala de conferência em uma chamada com três participantes remotos.

Ao aplicar o esquema anterior a essa imagem, o Azure Content Understanding produz os seguintes resultados:

  • Local: Sala de conferência
  • Participantes pessoais: 1
  • Participantes remotos: 3
  • Total de participantes: 4

Se, em vez de analisar a imagem parada, você criasse um analisador para o vídeo gravado da chamada, o esquema poderia incluir contagens de presença em vários intervalos de tempo, detalhes de quem falou durante a chamada e o que eles foi dito, um resumo da discussão e uma lista de ações atribuídas da reunião.