Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Traduções não em inglês são fornecidas apenas para conveniência. Consulte a EN-US versão deste documento para obter a versão definitiva.
Este artigo fornece informações sobre casos de uso para OCR (reconhecimento óptico de caracteres).
O que é uma nota de transparência?
Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, que serão afetadas por ele e o ambiente em que ele é implantado. Criar um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, suas funcionalidades e limitações e como obter o melhor desempenho.
A Microsoft fornece notas de transparência para ajudá-lo a entender como nossa tecnologia de IA funciona. Essa tecnologia inclui as escolhas que os proprietários do sistema podem fazer e que influenciam o desempenho e o comportamento do sistema, além da importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar notas de transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.
As notas de transparência fazem parte de um esforço mais amplo da Microsoft para colocar nossos princípios de IA em prática. Para saber mais, confira os princípios de IA da Microsoft.
Introdução ao OCR (reconhecimento óptico de caracteres)
Atualmente, as empresas precisam converter texto de imagens, documentos de papel verificados e arquivos digitais em insights acionáveis. Esses insights alimentam a mineração de conhecimento, a automação de processos empresariais e a acessibilidade do conteúdo para todos. O OCR (reconhecimento óptico de caracteres) é um serviço de IA usado para extrair texto do conteúdo visual, como imagens e documentos. Atualmente, o OCR dá suporte a vários idiomas para extração de texto de impressão (consulte idiomas compatíveis com OCR). Atualmente, o OCR manuscrito tem suporte exclusivo para inglês.
As noções básicas do OCR
A tecnologia OCR da Microsoft é oferecida por meio da API de Leitura do Azure Vision in Foundry Tools. Os clientes chamam a API de Leitura com seu conteúdo para obter o texto extraído, sua localização e outros insights na saída de texto legível do computador. Eles processam a saída em seus aplicativos de negócios para implementar a inteligência de conteúdo, a automação de processos de negócios e outros cenários para seus usuários.
| Prazo | Definição |
|---|---|
| Assíncrono | Assíncrono significa que o serviço não retorna imediatamente o texto extraído. Em vez disso, o processo começa em segundo plano. O aplicativo do cliente precisará fazer check-back posteriormente para obter o texto extraído. |
| Leitura | A operação de leitura é uma chamada assíncrona que aceita imagens e documentos para iniciar a análise e a extração de texto, que é retornada por meio de outra chamada. |
| Obter os resultados da leitura | Embora o processo de análise e extração esteja ativo, a operação "Get Read Results" mostra o status de progresso. Quando o processo é concluído, a operação Obter Resultados de Leitura gera o texto extraído (na forma de linhas de texto e palavras) e valores de confiança. |
| Valor de confiança | A operação Obter Resultados de Leitura retorna valores de confiança no intervalo entre 0 e 1 para todas as palavras extraídas. Esse valor representa a estimativa do serviço de quantas vezes ele extrai corretamente a palavra de 100. Por exemplo, uma palavra estimada para ser extraída corretamente 82% do tempo resultará em um valor de confiança de 0,82. |
Exemplos de casos de uso
Os casos de uso a seguir são exemplos populares para a tecnologia OCR.
- Pesquisa e arquivamento de imagens e documentos: documentos não estruturados, como contratos legais, documentos técnicos e conteúdo de notícias, contêm informações avançadas e metadados que não estão disponíveis para processos como marcação automatizada, categorização e pesquisa. O OCR permite que o texto desses documentos seja legível para análise, pesquisa e recuperação do computador.
- Moderação e localização de conteúdo de imagem: empresas de comércio eletrônico, editores de conteúdo gerados pelo usuário e comunidades de jogos online e mídias sociais precisam moderar imagens para estarem em conformidade com as regulamentações de segurança online. Em determinados casos, eles também precisam localizar conteúdo para públicos internacionais. O OCR permite que você extraia texto de imagens para aplicar o processamento downstream.
- Automação de processos empresariais: a automação de processos empresariais requer a integração de dados e preferências inseridas pelo usuário em documentos e telas de aplicativos com processos de negócios complexos. O OCR desbloqueia o texto inserido em documentos e imagens e o disponibiliza para uso nas etapas dos fluxos de trabalho de negócios.
- Processamento de documentos financeiros e de saúde: quando usado no processamento de back-office de formulários de aplicativos financeiros e de seguros, o OCR ajuda a economizar tempo e esforço no processamento de documentos. Da mesma forma, o OCR aplicado a reembolsos de pedidos médicos e formulários de informações médicas acelera os reembolsos e a qualificação para serviços e benefícios.
Considerações ao escolher outros casos de uso
Considere os seguintes fatores ao escolher um caso de uso.
Considere cuidadosamente ao usar para conceder ou negar benefícios: usar a saída do OCR diretamente para conceder ou negar benefícios pode resultar em erros se baseado em informações incorretas ou incompletas. Por exemplo, ao preencher formulários médicos, os usuários podem cometer erros ou não incluir informações importantes. Além disso, o OCR pode potencialmente ler mal ou não detectar partes do formulário. Para garantir decisões justas e de alta qualidade para os consumidores, combine a automação baseada em OCR com a supervisão humana.
Evite o uso para identificação de assinatura: ao extrair texto manuscrito, evite usar os resultados do OCR em assinaturas para identificar indivíduos. Assinaturas são difíceis de ler para humanos e máquinas. A melhor maneira de usar o OCR é usá-lo para detectar a presença de uma assinatura para análise posterior.
Não use o OCR para decisões que possam ter sérios impactos adversos: exemplos desses casos de uso incluem o processamento de prescrições médicas e a dispensa de medicamentos. Os modelos de machine learning que extraem texto de prescrições podem resultar em saída de texto não detectada ou incorreta. Decisões baseadas em resultados incorretos podem ter sérios impactos adversos. Além disso, é aconselhável incluir a revisão humana de decisões que têm o potencial de causar sérios impactos sobre os indivíduos.
-
Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer Ferramentas e soluções do Foundry, que podem não ser apropriadas para uso em todos os setores ou cenários. Além disso, as ferramentas ou soluções do Foundry não são projetadas e podem não ser usadas de maneiras proibidas em termos de serviço aplicáveis e códigos de conduta relevantes.