Partilhar via


Extrair e mapear informações de conteúdo não estruturado

Serviços de IA do Azure
Azure Cosmos DB
Azure Container Apps
Azure AI Foundry

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.

Esta solução de processamento de conteúdos extrai dados e aplica esquemas em conteúdos multimodais através de pontuação de confiança e validação do utilizador. Ele processa reivindicações, faturas, contratos e outros documentos extraindo informações de conteúdo não estruturado e mapeando-as para formatos estruturados.

A arquitetura utiliza Microsoft Foundry, Azure Content Understanding, Azure OpenAI em Foundry Models e outros serviços Azure para transformar grandes volumes de conteúdo não estruturado através de pipelines de processamento orientados a eventos. Lida com texto, imagens, tabelas e gráficos, e fornece verificações automáticas de qualidade e capacidades de revisão humana para fluxos de trabalho de documentos empresariais.

Arquitetura

Diagrama que mostra uma arquitetura típica de processamento de conteúdo.

Descarregue um ficheiro Visio desta arquitetura.

Workflow

O fluxo de trabalho a seguir corresponde ao diagrama anterior:

  1. Os utilizadores carregam conteúdos multimodais, como documentos, imagens, contratos e faturas, através da interface front-end web. Os utilizadores submetem o conteúdo com requisitos específicos de processamento e esquemas de destino.

  2. O site Aplicativos de Contêiner do Azure recebe a solicitação de carregamento de conteúdo e invoca a API de processamento hospedada em Aplicativos de Contêiner. A equipa de software desenvolve código personalizado para ambos os componentes para os adaptar a este cenário. A API seleciona o pipeline de processamento apropriado e inicia fluxos de trabalho de análise de conteúdo.

  3. O Container Apps gere o fluxo de processamento e liga o Content Understanding ao Azure OpenAI.

  4. O Content Understanding realiza reconhecimento ótico de caracteres (OCR) baseado em aprendizagem automática e extrai texto de vários formatos de conteúdo, incluindo imagens, tabelas e gráficos.

  5. O Azure OpenAI com GPT Vision processa o conteúdo extraído, mapeia-o para esquemas personalizados ou definidos pela indústria, e gera uma saída JSON estruturada que inclui pontuação de confiança.

  6. O código de orquestração em Aplicativos de Contêiner armazena resultados processados, pontuações de confiança, mapeamentos de esquema e dados históricos de processamento para trilhas de auditoria e melhoria contínua no Azure Cosmos DB.

  7. O código de orquestração em Aplicativos de Contêiner usa o Armazenamento de Blob do Azure para armazenar documentos de origem, artefatos de processamento intermediários e saídas estruturadas finais para persistência e recuperação de dados confiáveis.

  8. O Armazenamento de Filas do Azure gerencia fluxos de trabalho de processamento controlados por eventos entre os serviços desta solução. Esse gerenciamento garante um tratamento confiável de mensagens e coordenação de processamento em todos os componentes do pipeline.

  9. O site monitor do processador de conteúdo exibe os resultados processados para os usuários através da interface web. Os usuários podem revisar a saída JSON estruturada, corrigir quaisquer imprecisões, adicionar comentários para contexto ou feedback e salvar os resultados finais validados no sistema.

  10. O monitor do processador de conteúdo alimenta métricas de processamento e dados de feedback do usuário diretamente nos painéis do Power BI. Os dados processados e metadados armazenados no Azure Cosmos DB fornecem análises sobre o pipeline de processamento de conteúdos, incluindo os seguintes insights:

    • Indicadores chave de desempenho (KPIs)
    • Taxas de sucesso
    • Distribuições de tipos de documentos
    • Tendências da pontuação de confiança
    • Padrões de correção do utilizador
    • Outras métricas operacionais que suportam a otimização orientada por dados do pipeline de processamento de conteúdos

Componentes

  • A Container Apps é uma plataforma serverless container que executa microserviços e aplicações containerizadas. Nessa arquitetura, o Container Apps hospeda a API de pipeline de processamento que orquestra a análise de conteúdo, coordena entre os serviços de IA e gerencia os fluxos de trabalho de extração e transformação. A sua equipa de engenharia de software desenvolve o código personalizado.

  • O Foundry é um serviço gerido de IA que fornece acesso a modelos avançados de linguagem para processamento e geração de linguagem natural. Nesta arquitetura, o Foundry fornece a base para a implementação e gestão de modelos de IA usados no pipeline de processamento de conteúdos. Também serve como porta de entrada para os serviços de IA conectados, como o Content Understanding.

    • O Azure OpenAI é um componente do Foundry que fornece modelos de linguagem, incluindo GPT-4o e GPT-4o mini. Nesta arquitetura, a Foundry aloja os modelos como um serviço. Esses modelos executam a transformação de dados baseada em esquema, mapeiam o conteúdo extraído para formatos estruturados e calculam pontuações de confiança para precisão de extração.

    • Content Understanding é um serviço multimodal de IA que analisa vários tipos de conteúdos mediáticos, como áudio, vídeo, texto e imagens. Transforma o conteúdo em dados estruturados e pesquisáveis. Nesta arquitetura, o Content Understanding realiza OCR avançado e extração de conteúdo a partir de documentos multimodais.

  • O Azure Cosmos DB é um serviço de banco de dados de vários modelos distribuído globalmente que fornece baixa latência garantida e escalabilidade elástica. Nessa arquitetura, o Azure Cosmos DB armazena resultados processados, pontuações de confiança, resultados de validação e dados históricos de processamento para trilhas de auditoria e otimização de desempenho.

  • O Blob Storage é uma solução de armazenamento de objetos otimizada para armazenar grandes quantidades de dados não estruturados. Nesta arquitetura, o Blob Storage mantém documentos fonte, artefactos intermédios de processamento e saídas estruturadas finais. Proporciona armazenamento duradouro e disponível globalmente.

  • O Registro de Contêiner do Azure é um serviço de registro do Docker gerenciado que armazena e gerencia imagens de contêiner. Nessa arquitetura, o Registro de Contêiner gerencia imagens de contêiner versionadas para os componentes do pipeline de processamento. Esse sistema garante recursos consistentes de implantação e reversão.

  • O Power BI é um conjunto de serviços de software, aplicações e conectores que trabalham em conjunto para o ajudar a criar, partilhar e consumir insights empresariais. Nesta arquitetura, o Power BI liga-se ao Azure Cosmos DB e recebe métricas de processamento em tempo real da aplicação web de monitorização para fornecer análises sobre o desempenho do processamento de documentos, padrões de feedback dos utilizadores e KPIs operacionais.

Alternativas

Essa arquitetura inclui vários componentes que você pode substituir por outros serviços ou abordagens do Azure, dependendo dos requisitos funcionais e não funcionais da sua carga de trabalho. Considere as seguintes alternativas e compensações.

Abordagem de extração de conteúdo

Abordagem atual: Esta solução utiliza Content Understanding para OCR avançado e extração de conteúdos, combinado com Azure OpenAI para mapeamento e transformação de esquemas. Esta abordagem proporciona elevada precisão para conteúdos multimodais complexos e suporta a personalização flexível dos esquemas.

Abordagem alternativa: Use o Azure Document Intelligence para o processamento de documentos, utilizando modelos pré-construídos para tipos comuns de documentos como faturas, recibos e formulários. Essa abordagem fornece implementação mais rápida para tipos de documentos padrão, mas menos flexibilidade para esquemas personalizados.

Considere esta alternativa se a sua carga de trabalho tiver as seguintes características:

  • Você processa principalmente tipos de documentos padrão que têm formatos bem definidos.

  • Precisa de um tempo de colocação no mercado mais rápido usando modelos de extração pré-configurados.

  • Os requisitos do esquema estão alinhados com os modelos padrão de inteligência documental.

  • Você tem recursos de desenvolvimento personalizados limitados para mapeamento de esquema.

Orquestração de processamento

Abordagem atual: Essa solução usa aplicativos de contêiner para hospedar a lógica de processamento personalizada que orquestra o pipeline de análise de conteúdo. Essa abordagem fornece o máximo controle sobre fluxos de trabalho de processamento, tratamento de erros e integração de lógica de negócios personalizada.

Abordagem alternativa: Use os Aplicativos Lógicos do Azure ou o Azure Functions para orquestração de fluxo de trabalho com conectores internos para serviços de IA. Essa abordagem fornece design de fluxo de trabalho visual e benefícios de serviço gerenciado, mas menos controle sobre a lógica de processamento.

Considere esta alternativa se a sua carga de trabalho tiver as seguintes características:

  • Você prefere o design de fluxo de trabalho visual ao desenvolvimento de código personalizado.

  • Seus fluxos de trabalho de processamento são relativamente simples e usam lógica condicional padrão.

  • Você deseja minimizar a sobrecarga de gerenciamento de infraestrutura.

  • Sua equipe tem mais experiência em soluções low-code e no-code do que em aplicativos em contêineres.

Detalhes do cenário

Algumas organizações extraem dados significativos diariamente de grandes volumes de conteúdo multimodal e não estruturado. O processamento manual tradicional de documentos como contratos, faturas, reclamações e relatórios de conformidade é demorado, propenso a erros e não escala com o crescimento do negócio. Como resultado, as organizações enfrentam qualidade de dados inconsistente, falta de padronização e dificuldade em integrar informações extraídas em processos de negócios downstream. Esta solução de processamento de conteúdos resolve esses problemas.

A solução utiliza serviços avançados de IA para extrair, transformar e validar automaticamente conteúdos de vários tipos de documentos. O sistema fornece pontuação de confiança para permitir o processamento automatizado para extrações de alta confiança enquanto sinaliza resultados de baixa confiança para revisão humana. Essa abordagem garante velocidade e precisão, mantendo a flexibilidade para lidar com diversos formatos de conteúdo e esquemas de negócios personalizados.

Potenciais casos de utilização

Considere os seguintes casos de uso potenciais.

Processamento de serviços financeiros

  • Automatização do processamento de sinistros: Extraia detalhes da apólice, avaliações de danos e estimativas de custos de documentos de sinistros de seguros, fotos e relatórios de ajustadores usando verificações automatizadas de validação e conformidade.

  • Processamento de faturas e contratos: Extraia automaticamente informações de fornecedores, itens de linha, termos e condições de faturas e contratos e mapeie-os para sistemas corporativos usando a pontuação de confiança para fluxos de trabalho de aprovação.

  • Análise de documentos regulatórios: Processe arquivamentos regulatórios, relatórios de conformidade e documentação de auditoria para extrair métricas-chave e garantir a aderência às regulamentações financeiras e aos requisitos de relatórios.

Documentação sobre cuidados de saúde

  • Processamento de documentos clínicos: Extraia informações do paciente, diagnósticos, planos de tratamento e informações sobre medicamentos de registros médicos, relatórios laboratoriais e notas clínicas para integração de registros eletrônicos de saúde.

  • Automação de faturamento médico: Processe reclamações médicas, extratos de faturamento e formulários de seguro para extrair códigos de procedimento, detalhes do paciente e informações de cobertura para fluxos de trabalho de faturamento automatizados.

  • Extração de dados de pesquisa: Analise documentos de ensaios clínicos, documentos de pesquisa e formulários de consentimento do paciente para extrair parâmetros do estudo, resultados e dados de conformidade para fluxos de trabalho de pesquisa médica.

  • Análise e extração de contratos: Processe contratos, acordos e emendas legais para extrair termos, obrigações, datas e partes importantes para gerenciamento de contratos e monitoramento de conformidade.

  • Descoberta de documentos legais: Analise resumos jurídicos, depoimentos e arquivos de casos para extrair fatos, citações e evidências relevantes para suporte a litígios e preparação de casos.

  • Documentação de conformidade: Processe envios regulatórios, relatórios de auditoria e certificados de conformidade para extrair requisitos, descobertas e ações corretivas para fluxos de trabalho de governança.

Fabrico e cadeia de abastecimento

  • Processamento de documentação de qualidade: Extrair resultados de inspeção, dados de teste e detalhes de certificação a partir de documentos e certificados de controlo de qualidade. Use os dados extraídos para acompanhamento de conformidade e melhoria de processos.

  • Documentação do fornecedor: Processe certificações de fornecedores, especificações de materiais e documentos de envio para extrair dados de conformidade e informações da cadeia de suprimentos para fluxos de trabalho de compras.

  • Análise de registos de manutenção: Extraia dados de equipamentos, cronogramas de manutenção e históricos de reparos da documentação técnica para manutenção preditiva e sistemas de gerenciamento de ativos.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que você pode usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Well-Architected Framework.

Otimização de Custos

A Otimização de Custos concentra-se em formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.

Para mais informações sobre os custos para executar este cenário, consulte a estimativa pré-configurada na calculadora de preços do Azure.

Os preços variam consoante a região e o uso, por isso não pode prever os custos exatos para a sua implantação. A maioria dos recursos do Azure nesta infraestrutura segue níveis de preços baseados no uso. Mas o Container Registry tem um custo fixo diário para cada registo.

Implementar este cenário

Para implementar uma implementação desta arquitetura, siga os passos no repositório do GitHub.

Contribuidores

A Microsoft mantém este artigo. Os seguintes colaboradores escreveram este artigo.

Autor principal:

Outros contribuidores:

Para ver perfis não públicos do LinkedIn, faça login no LinkedIn.

Próximos passos