Compartilhar via


Noções básicas sobre o conteúdo do Azure em soluções de documentos do Foundry Tools

Importante

Este recurso está disponível em versão preliminar. As visualizações públicas fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Funcionalidades, abordagens e processos podem ser alterados ou ter capacidades limitadas antes de se tornarem disponíveis para o público em geral. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

O Content Understanding oferece recursos sofisticados de análise de documentos. As organizações podem usar esses recursos para converter conteúdo não estruturado em dados acionáveis e organizados. A Compreensão de Conteúdo pode usar analisadores personalizáveis para extrair informações, campos e relações essenciais de uma variedade diversificada de documentos e formulários.

Casos de uso de negócios

Os analisadores de documentos podem processar documentos complexos em vários formatos e modelos:

  • Gerenciamento do ciclo de vida do contrato: Extraia campos de chave, cláusulas e obrigações de vários tipos de contrato.
  • Pedidos de empréstimos e hipotecas: Automatize o processamento para habilitar a manipulação mais rápida por bancos, credores e entidades governamentais.
  • Serviços financeiros: Analise documentos complexos, como relatórios financeiros e relatórios de gerenciamento de ativos.
  • Gerenciamento de despesas: Analise recibos e faturas de vários varejistas para validar despesas em diferentes formatos e modelos.
  • Conjuntos de documentos e cenários de base de dados de conhecimento: Extraia campos de chave de conjuntos de documentos como um todo. Adicione dados de referência que lidam com tarefas como validação e enriquecimento aplicando o raciocínio de várias etapas.

Principais benefícios

O Content Understanding oferece recursos avançados de análise de documentos projetados para lidar com cenários empresariais e de negócios críticos, como RAG e automação de processos robóticos. Entre os principais benefícios estão:

  • Habilitação de pesquisa inteligente: Transforme documentos não estruturados em ativos de dados estruturados e pesquisáveis para melhorar a capacidade de descoberta de informações e a acessibilidade em toda a sua organização.
  • Extração de dados fundamentados: mantenha a rastreabilidade e a localização claras dos dados extraídos para facilitar processos eficientes de revisão humana no loop e garantir a transparência e a conformidade.
  • Automação controlada por confiança: Use a pontuação de confiança interna para automatizar de forma inteligente as tarefas de processamento de documentos para ajudá-lo a otimizar a alocação de recursos, reduzir os custos operacionais e melhorar a precisão da tomada de decisões.
  • Personalização flexível: Adapte facilmente os analisadores de documentos para alinhar com processos e fluxos de trabalho específicos de negócios. A personalização permite a extração e a classificação precisas adaptadas aos requisitos específicos da sua organização.
  • Precisão e confiabilidade aprimoradas: Obtenha extração e classificação precisas de dados comerciais críticos para reduzir erros e melhorar a eficiência operacional em fluxos de trabalho automatizados.
  • Agentes prontos: Processe sua entrada diversificada e forneça a saída em um formato padrão que esteja pronto para o fluxo de trabalho de um agente. As saídas podem dar ao seu aplicativo uma compreensão da intenção do usuário, com dados amparados por um esquema strongly-typed que facilita a rápida obtenção de dados em um formato pronto para seu código.

Recursos do analisador de documentos

Captura de tela que mostra o fluxo de extração de documentos.

Extração de conteúdo

A extração de conteúdo forma a base dos recursos de análise de documentos do Content Understanding. Esse processo transforma documentos não estruturados em dados estruturados e legíveis pelo computador. A extração de conteúdo captura precisamente o texto impresso e manuscrito enquanto preserva a estrutura do documento por meio da análise avançada de layout:

  • Análise de conteúdo
    • Texto: processa conteúdo multilíngue, incluindo texto impresso por computador e manuscrito de centenas de idiomas.
    • Marcas de seleção: identifica e extrai indicadores de seleção, como caixas de seleção, botões e marcadores semelhantes.
    • Detecção de código de barras: verifica e decodifica informações de mais de uma dúzia de tipos de códigos de barras lineares e bidimensionais.
    • Fórmulas matemáticas: captura e preserva expressões matemáticas complexas no formato LaTeX.
    • Elementos de imagem: localiza e extrai imagens, figuras, diagramas e gráficos junto com suas legendas e anotações relacionadas.
    • Elementos de hiperlink: detecta hiperlinks inseridos no documento.
    • Elementos de anotação: associam os conteúdos às suas anotações, como tachado, sublinhado, destacado.
    • Elementos de figura: detecta e extrai elementos de figura para uma saída estruturada.
  • Análise de estrutura
    • Parágrafos: detecta e categoriza segmentos de texto com base no contexto e na função do documento.
    • Dados tabulares: reconhece e extrai estruturas de tabela, incluindo formatos complexos com células de abrangência e layouts de várias páginas.
    • Seções hierárquicas: mapeia a organização de conteúdo por meio de cabeçalhos de seção e relações de conteúdo aninhadas.
  • RAG (geração aumentada de recuperação)
    • Soluções RAG: A extração de conteúdo forma a base dos sistemas RAG eficazes ao transformar dados brutos multimodais em formatos estruturados e pesquisáveis, que são otimizados para recuperação. Saiba mais sobre como criar soluções de RAG em Geração aumentada de recuperação.

Extração de campo

Com a extração de campo, você pode extrair, classificar e gerar dados estruturados de vários documentos e formulários personalizados para atender às suas necessidades. O processo de transformação de conteúdo não estruturado em informações organizadas e acionáveis simplifica o gerenciamento de dados, melhora a pesquisa e dá suporte a fluxos de trabalho automatizados.

Por exemplo, você pode extrair perfeitamente os detalhes do cliente, os endereços de cobrança e os encargos itemizados das faturas. Você também pode identificar partes contratuais, datas de renovação e termos de pagamento em contratos legais. Para maximizar a eficiência, você pode usar modelos de analisador predefinidos, como modelos personalizados para faturas. Você também pode criar analisadores sob medida desde o início para aprimorar a precisão por meio da rotulagem de um número maior de documentos de exemplo.

A API de confiança e a fundamento é um recurso de aceitação. Para habilitar a confiança e a base para extrair o campo, defina estimateFieldSourceAndConfidence = true na configuração do analisador ou estimateSourceAndConfidence = true em um campo específico.

Métodos de extração de campo

O Content Understanding fornece métodos versáteis para extração de campo, o que permite o processamento preciso e personalizado do conteúdo do documento:

  • Extração: extraia dados específicos, como datas de transação de recibos ou itens de linha de faturas, para captura de informações precisas e focadas.
  • Classificar: categorize o conteúdo do documento em categorias predefinidas, como classificar o sentimento em transcrições de chamadas do cliente ou classificar itens de recibo de hotel.
  • Gerar: produza novos insights ou resumos de seus documentos, incluindo resumos de documentos e visões gerais de capítulo para aprimorar a acessibilidade e a compreensão do conteúdo.

Requisitos de entrada

Para obter mais informações sobre formatos de documento de entrada com suporte, consulte cotas e limites de serviço.

Idiomas e regiões com suporte

Para obter uma lista de idiomas e regiões com suporte, consulte o suporte a idiomas e regiões.

Dados, privacidade e segurança

Os desenvolvedores que usam o Content Understanding devem examinar as políticas da Microsoft sobre os dados do cliente. Para obter mais informações, consulte Dados, privacidade e segurança.