Partilhar via


Azure Content Understanding in Foundry Tools soluções de documentos

O Content Understanding oferece recursos sofisticados de análise de documentos. As organizações podem usar esses recursos para converter conteúdo não estruturado em dados acionáveis e organizados. O Content Understanding pode usar analisadores personalizáveis para extrair habilmente informações, campos e relacionamentos essenciais de uma ampla gama de documentos e formulários.

Casos de uso de negócios

Os analisadores de documentos podem processar documentos complexos em vários formatos e modelos:

  • Gestão do ciclo de vida do contrato: Extraia campos-chave, cláusulas e obrigações de vários tipos de contrato.
  • Pedidos de empréstimo e hipoteca: Automatize o processamento para permitir um tratamento mais rápido por bancos, credores e entidades governamentais.
  • Serviços financeiros: Analise documentos complexos, como relatórios financeiros e relatórios de gestão de ativos.
  • Gestão de despesas: Analise recibos e faturas de vários varejistas para validar despesas em diferentes formatos e modelos.
  • Conjuntos de documentos e cenários da base de dados de conhecimento: Extraia campos-chave de conjuntos de documentos como um todo. Adicione dados de referência que lidam com tarefas como validação e enriquecimento aplicando raciocínio de várias etapas.

Principais benefícios

O Content Understanding oferece recursos poderosos de análise de documentos projetados para lidar com cenários corporativos e de negócios críticos, como RAG e automação de processos robóticos. Os principais benefícios incluem:

  • Ativação de pesquisa inteligente: Transforme documentos não estruturados em ativos de dados estruturados e pesquisáveis para melhorar a descoberta e a acessibilidade das informações em toda a organização.
  • Extração de dados fundamentada: Mantenha rastreabilidade e localização claras dos dados extraídos para facilitar processos eficientes de revisão com intervenção humana e garantir transparência e conformidade.
  • Automação baseada na confiança: Use a pontuação de confiança integrada para automatizar de forma inteligente as tarefas de processamento de documentos para ajudá-lo a otimizar a alocação de recursos, reduzir os custos operacionais e melhorar a precisão da tomada de decisões.
  • Personalização flexível: Personalize e adapte facilmente os analisadores de documentos para alinhá-los aos processos de negócios e aos fluxos de trabalho específicos. A personalização permite uma extração e classificação precisas, adaptadas aos requisitos específicos da sua organização.
  • Maior precisão e fiabilidade: Obtenha extração e classificação precisas de dados críticos de negócios para reduzir erros e melhorar a eficiência operacional em fluxos de trabalho automatizados.
  • Agentes prontos: Processe suas diversas entradas e saídas em um formato padrão pronto para o fluxo de trabalho de um agente. As saídas podem dar ao seu aplicativo uma compreensão da intenção do usuário, com dados suportados por um strongly-typed esquema que facilita a obtenção rápida de dados em um formato pronto para seu código.

Recursos do analisador de documentos

Captura de tela que mostra o fluxo de extração de documentos.

Extração de conteúdo

A extração de conteúdo forma a base dos recursos de análise de documentos do Content Understanding. Este processo transforma documentos não estruturados em dados estruturados e legíveis por máquina. A extração de conteúdo captura com precisão o texto impresso e manuscrito, preservando a estrutura do documento através da análise avançada do layout:

  • Análise de conteúdo
    • Texto: processa conteúdo multilingue, incluindo texto impresso por máquina e manuscrito de centenas de idiomas.
    • Marcas de seleção: identifica e extrai indicadores de seleção, como caixas de seleção, botões e marcadores semelhantes.
    • Deteção de código de barras: Verifica e decodifica informações de mais de uma dúzia de tipos de códigos de barras lineares e bidimensionais.
    • Fórmulas matemáticas: Captura e preserva expressões matemáticas complexas no formato LaTeX.
    • Elementos de imagem: Localiza e extrai imagens, figuras, diagramas e gráficos juntamente com as respetivas legendas e anotações.
    • Elementos de hiperligação: Detetam hiperligações embutidas no documento.
    • Elementos de anotação: Associar os conteúdos às suas anotações, como riscado, sublinhado, realçado.
    • Elementos de figura: Detetar e extrair elementos de figura em saída estruturada.
  • Análise de estruturas
    • Parágrafos: deteta e categoriza segmentos de texto com base no contexto e na função do documento.
    • Dados tabulares: reconhece e extrai estruturas de tabelas, incluindo formatos complexos com células de abrangência e layouts de várias páginas.
    • Seções hierárquicas: mapeia a organização do conteúdo por meio de cabeçalhos de seção e relações de conteúdo aninhadas.
  • Geração aumentada de recuperação (RAG)
    • Soluções RAG: A extração de conteúdo forma a base de sistemas RAG eficazes, transformando dados multimodais brutos em formatos estruturados e pesquisáveis que são otimizados para recuperação. Para saber mais sobre como criar soluções RAG, consulte Geração aumentada de recuperação.

Extração de campo

Com a extração de campo, você pode extrair, classificar e gerar dados estruturados de vários documentos e formulários que são personalizados para atender às suas necessidades. O processo de transformação de conteúdo não estruturado em informações organizadas e acionáveis simplifica o gerenciamento de dados, melhora a capacidade de pesquisa e suporta fluxos de trabalho automatizados.

Por exemplo, você pode extrair facilmente detalhes do cliente, endereços de cobrança e cobranças discriminadas de faturas. Você também pode identificar partes contratuais, datas de renovação e condições de pagamento em contratos legais. Para maximizar a eficiência, você pode usar modelos de analisador pré-criados, como modelos personalizados para faturas. Você também pode projetar analisadores sob medida a partir do zero para melhorar a precisão através da rotulagem de mais documentos de amostra.

A API de confiança e base é um recurso opcional. Para ativar a confiança e a referência para extração de campo, defina estimateFieldSourceAndConfidence = true na configuração do analisador ou estimateSourceAndConfidence = true para um campo específico.

Métodos de extração de campo

O Content Understanding fornece métodos versáteis para extração de campo, que permitem o processamento preciso e personalizado do conteúdo do documento:

  • Extrair: Extrair dados específicos, como datas de transações a partir de recibos ou itens de linha de faturas, para uma captura precisa e focada de informações.
  • Classificar: categorize o conteúdo do documento em categorias predefinidas, como classificar o sentimento nas transcrições de chamadas do cliente ou classificar itens de recibo de hotel.
  • Gerar: produza novas informações ou resumos a partir de seus documentos, incluindo resumos de documentos e visões gerais de capítulos para melhorar a acessibilidade e a compreensão do conteúdo.

Requisitos de entrada

Para obter mais informações sobre formatos de documentos de entrada suportados, consulte Cotas e limites de serviço.

Idiomas e regiões suportados

Para obter uma lista de idiomas e regiões suportados, consulte Suporte a idiomas e regiões.

Dados, privacidade e segurança

Os programadores que utilizam a Compreensão de Conteúdos devem rever as políticas da Microsoft relativas aos dados dos clientes. Para obter mais informações, consulte Dados, privacidade e segurança.