Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Importante
Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.
En este artículo se proporciona información sobre los casos de uso para el reconocimiento óptico de caracteres (OCR).
¿Qué es una nota de transparencia?
Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se verán afectadas por ella, así como los entornos en los que se implementan. La creación de un sistema adecuado a su finalidad requiere comprender cómo funciona la tecnología, sus capacidades y limitaciones, y cómo conseguir el mejor rendimiento.
Microsoft proporciona notas de transparencia que le ayudarán a comprender cómo funciona nuestra tecnología de inteligencia artificial. Esto incluye las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas de transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.
Las notas de transparencia forman parte de un esfuerzo más amplio en Microsoft para poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte Principios de ia de Microsoft.
Introducción al reconocimiento óptico de caracteres (OCR)
Las empresas hoy en día a menudo necesitan convertir texto de imágenes, documentos de papel escaneados y archivos digitales en ideas prácticas. Estas conclusiones potencian la minería de conocimientos, la automatización de procesos empresariales y la accesibilidad del contenido para todos. El reconocimiento óptico de caracteres (OCR) es un servicio de INTELIGENCIA ARTIFICIAL que se usa para extraer texto del contenido visual, como imágenes y documentos. Actualmente, OCR admite varios idiomas para la extracción de texto impreso (consulte Idiomas compatibles con OCR). Actualmente, OCR manuscrito se admite exclusivamente para inglés.
Conceptos básicos de OCR
La tecnología OCR de Microsoft se ofrece a través de Azure Vision in Foundry Tools Read API. Los clientes llaman a la Read API con su contenido para obtener el texto extraído, su ubicación y otras conclusiones en un formato de texto legible por máquina. Procesan la salida dentro de sus aplicaciones empresariales para implementar la inteligencia de contenido, la automatización de procesos empresariales y otros escenarios para sus usuarios.
| Término | Definición |
|---|---|
| Asincrónica | Asincrónico significa que el servicio no devuelve inmediatamente el texto extraído. En su lugar, el proceso se inicia en segundo plano. La aplicación del cliente tendrá que volver a comprobarlo más adelante para obtener el texto extraído. |
| Lectura | La operación Read es una llamada asincrónica que acepta imágenes y documentos para comenzar el análisis y la extracción de texto, que se devuelve a través de otra llamada. |
| Obtener resultados de lectura | Mientras el proceso de análisis y extracción está activo, la operación Obtener resultados de lectura muestra el estado de progreso. Una vez completado el proceso, la operación Obtener resultados de lectura genera el texto extraído (en forma de líneas de texto y palabras) y los valores de confianza. |
| Valor de confianza | La operación Obtener resultados de lectura devuelve valores de confianza en el intervalo comprendido entre 0 y 1 para todas las palabras extraídas. Este valor representa la estimación del servicio de cuántas veces de cada 100 extrae correctamente la palabra. Por ejemplo, una palabra que se estima que se extraiga correctamente el 82 % del tiempo dará como resultado un valor de confianza de 0,82. |
Ejemplos de casos de uso
Los siguientes casos de uso son ejemplos populares de la tecnología OCR.
- Imágenes y documentos de búsqueda y archivo: documentos no estructurados, como contratos legales, documentos técnicos y contenido de noticias, contienen información enriquecida y metadatos que no están disponibles para procesos como el etiquetado automatizado, la categorización y la búsqueda. OCR permite que el texto de estos documentos sea legible automáticamente para el análisis, la búsqueda y la recuperación.
- Moderación y localización de contenido de imágenes: las empresas de comercio electrónico, los editores de contenido generados por el usuario y las comunidades de juegos en línea y redes sociales deben moderar las imágenes para ser compatibles con las regulaciones de seguridad en línea. En ciertos casos, también necesitan localizar contenido para audiencias internacionales. OCR permite extraer texto de imágenes para aplicar procesamiento posterior.
- Automatización de procesos empresariales: la automatización de procesos empresariales requiere la integración de datos y preferencias introducidos por el usuario en documentos y pantallas de aplicaciones con procesos empresariales complejos. OCR desbloquea el texto incrustado en documentos e imágenes y hace que esté disponible para su uso en los pasos de los flujos de trabajo empresariales.
- Procesamiento de documentos financieros y sanitarios: cuando se usa en el procesamiento de formularios de solicitud de seguros y financieros, OCR ayuda a ahorrar tiempo y esfuerzo en el procesamiento de documentos. Del mismo modo, el OCR aplicado a reembolsos de reclamaciones médicas y formularios de información médica acelera los reembolsos y la calificación de los servicios y beneficios.
Consideraciones al seleccionar los casos de uso
Tenga en cuenta los siguientes factores al elegir un caso de uso.
Tenga en cuenta detenidamente al usar para otorgar o denegar beneficios: el uso de la salida de OCR directamente para la concesión o denegación de beneficios puede producir errores si se basa en información incorrecta o incompleta. Por ejemplo, al rellenar formularios médicos, los usuarios pueden producir errores o no incluir información importante. Además, OCR puede no leer o no detectar partes del formulario. Para garantizar decisiones justas y de alta calidad para los consumidores, combine la automatización basada en OCR con la supervisión humana.
Evitar el uso de la identificación de firmas: al extraer texto manuscrito, evite usar los resultados de OCR en firmas para identificar a las personas. Las firmas son difíciles de leer para humanos y máquinas por igual. Una mejor manera de usar OCR es usarla para detectar la presencia de una firma para un análisis posterior.
No use OCR para las decisiones que pueden tener graves efectos adversos: algunos ejemplos de tales casos de uso incluyen el procesamiento de recetas médicas y la dispensación de medicamentos. Los modelos de aprendizaje automático que extraen texto de recetas pueden dar lugar a una salida de texto no detectada o incorrecta. Las decisiones basadas en resultados incorrectos podrían tener graves efectos adversos. Además, es aconsejable incluir la revisión humana de las decisiones que tienen el potencial de graves impactos en las personas.
-
Consideraciones legales y normativas: las organizaciones deben evaluar posibles obligaciones legales y normativas específicas al usar las herramientas y soluciones de Foundry, que pueden no ser adecuadas para su uso en todos los sectores o escenarios. Además, las herramientas o soluciones de Foundry no están diseñadas para y pueden no usarse de maneras prohibidas en términos de servicio aplicables y códigos de conducta pertinentes.