Visão geral da extração de informação
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
A extração de informação é uma carga de trabalho que combina múltiplas técnicas de IA para extrair dados de conteúdos – frequentemente documentos digitais. Uma solução abrangente de extração de informação envolve elementos de visão computacional para detetar texto em dados baseados em imagens; e aprendizagem automática, ou cada vez mais IA generativa, para mapear semanticamente o texto extraído para campos de dados específicos.
- Deteção e extração de texto de imagens usando reconhecimento ótico de caracteres (OCR).
- Identificação de valores e mapeamento dos resultados do OCR para campos de dados.
Por exemplo, uma solução de processamento de sinistros de despesas alimentada por IA pode extrair automaticamente os campos relevantes dos recibos para processar os pedidos de forma mais eficiente.
| Recibo digitalizado | Dados extraídos |
|---|---|
|
|
Escolher a abordagem certa
Ao planear uma solução de extração de informação, é importante considerar os requisitos e restrições que o sistema deve cumprir. Algumas considerações chave incluem:
Características do documento. Os documentos dos quais precisa de extrair dados são a base de toda a solução. Considere fatores como:
- Consistência do layout: Formulários padronizados favorecem abordagens baseadas em templates, enquanto a necessidade de processar múltiplos formatos e layouts pode exigir uma solução baseada em aprendizagem automática mais complexa.
- Requisitos de volume: Processamento de alto volume beneficia de modelos automatizados de aprendizagem automática que funcionam em hardware de sistema otimizado.
- Requisitos de precisão: Aplicações críticas podem necessitar de validação por um humano durante o processo.
Requisitos e restrições da infraestrutura técnica. A sua solução vai exigir infraestrutura de hardware e software para funcionar. Considere fatores como:
- Segurança e privacidade: Os documentos que está a processar podem conter dados sensíveis ou confidenciais. A sua solução deve incluir medidas adequadas para garantir o acesso aos dados e cumprir quaisquer requisitos da indústria para armazenamento e processamento de dados protegidos.
- Poder de processamento: Os modelos de aprendizagem profunda e IA generativa frequentemente usados em soluções de extração de informação requerem recursos computacionais significativos.
- Requisitos de latência: O processamento em tempo real pode limitar a complexidade do modelo.
- Necessidades de escalabilidade: As soluções baseadas na cloud oferecem melhor escalabilidade para cargas de trabalho variáveis.
- Complexidade de integração: Considere a compatibilidade da API e os requisitos de formato de dados.
Sugestão
Em muitos casos, as soluções de extração de informação podem ser construídas utilizando serviços de software, como o Azure Document Intelligence nas Microsoft Foundry Tools e o Azure Content Understanding nas Microsoft Foundry Tools. Utilizar serviços como estes como base para a sua solução pode reduzir significativamente o esforço de desenvolvimento necessário, ao mesmo tempo que proporciona desempenho, precisão e capacidades de integração altamente escaláveis e comprovadas pela indústria.