Visão geral da extração de informações
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
A extração de informações é uma carga de trabalho que combina várias técnicas de IA para extrair dados do conteúdo – geralmente documentos digitais. Uma solução abrangente de extração de informações envolve elementos da pesquisa visual computacional para detectar texto em dados baseados em imagem; e machine learning, ou IA cada vez mais generativa, para mapear semanticamente o texto extraído para campos de dados específicos.
- Detecção e extração de texto de imagens usando o OCR (reconhecimento óptico de caracteres).
- Identificação de valor e mapeamento dos resultados do OCR para os campos de dados.
Por exemplo, uma solução de processamento de declaração de despesas alimentada por IA pode extrair automaticamente os campos relevantes de recibos para processar declarações com mais eficiência.
| Confirmação digitalizada | Dados extraídos |
|---|---|
|
|
Escolhendo a abordagem certa
Ao planejar uma solução de extração de informações, é importante considerar os requisitos e restrições que o sistema deve abordar. Algumas considerações importantes incluem:
Características do documento. Os documentos dos quais você precisa extrair dados são a base de toda a solução. Considere fatores como:
- Consistência de layout: formulários padronizados favorecem abordagens baseadas em modelo, enquanto a necessidade de processar vários formatos e layouts pode exigir uma solução mais complexa baseada em aprendizado de máquina.
- Requisitos de volume: o processamento de alto volume se beneficia de modelos automatizados de machine learning executados no hardware do sistema otimizado.
- Requisitos de precisão: aplicativos críticos podem precisar de validação humana no loop.
Requisitos e restrições de infraestrutura técnica. Sua solução exigirá infraestrutura de hardware e software para funcionar. Considere fatores como:
- Segurança e privacidade: os documentos que você está processando podem conter dados sensíveis ou confidenciais. Sua solução deve incluir medidas adequadas para proteger o acesso aos dados e a conformidade com todos os requisitos do setor para armazenar e processar dados protegidos.
- Poder de processamento: o aprendizado profundo e os modelos de IA generativos normalmente usados em soluções de extração de informações exigem recursos computacionais significativos.
- Requisitos de latência: o processamento em tempo real pode limitar a complexidade do modelo.
- Necessidades de escalabilidade: soluções baseadas em nuvem oferecem melhor escalabilidade para cargas de trabalho variáveis.
- Complexidade de integração: considere a compatibilidade da API e os requisitos de formato de dados.
Dica
Em muitos casos, as soluções de extração de informações podem ser criadas usando serviços de software, como o Azure Document Intelligence nas Ferramentas do Microsoft Foundry e o Azure Content Understanding nas Ferramentas do Microsoft Foundry. O uso de serviços como esses como base para sua solução pode reduzir consideravelmente o esforço de desenvolvimento necessário, fornecendo recursos de desempenho, precisão e integração altamente escalonáveis e comprovados pelo setor.