Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este contenido se aplica a:
v4.0 (GA) | Versión anterior:
v3.1 (GA) :::moniker-final
Este contenido se aplica a:
v3.1 (GA) | Versión más reciente:
v4.0 (GA)
El modelo de contrato de Document Intelligence usa eficaces funcionalidades de reconocimiento óptico de caracteres (OCR) para analizar y extraer campos clave y elementos de línea de un grupo seleccionado de entidades de contrato importantes. Los contratos pueden ser de distintos formatos y tener diferentes grados de calidad, lo que incluye imágenes capturadas por un teléfono, documentos digitalizados y archivos PDF digitales. La API analiza el texto del documento; extrae información clave como partes, jurisdicciones, id. de contrato y título; y devuelve una representación de datos JSON estructurada. El modelo admite actualmente formatos de documentos en inglés.
Procesamiento automatizado de contratos
El procesamiento automatizado de contratos es el proceso de extracción de los campos clave de los contratos a partir de los documentos. Históricamente, el proceso de análisis de contratos se realiza manualmente y, por tanto, lleva mucho tiempo. La extracción precisa de los datos clave de los contratos suele ser la primera y uno de los pasos más críticos del proceso de automatización de contratos.
Opciones de desarrollo
Documento de inteligencia v4.0: 2024-11-30 (GA) es compatible con las siguientes herramientas, aplicaciones y bibliotecas:
| Característica | Recursos | Id. de modelo |
|---|---|---|
| Modelo de contrato | • Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript |
contrato precompilado |
Documento de inteligencia v3.1 admite las siguientes herramientas, aplicaciones y bibliotecas:
| Característica | Recursos | Id. de modelo |
|---|---|---|
| Modelo de contrato | • Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript |
contrato precompilado |
Documento de inteligencia v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:
| Característica | Recursos | Id. de modelo |
|---|---|---|
| Modelo de contrato | • Document Intelligence Studio • API REST • SDK de C# • SDK de Python • SDK de Java • SDK de JavaScript |
contrato precompilado |
Requisitos de entrada
Se admiten los siguientes formatos de archivo.
| Modelo | Imagen: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Lectura | ✔ | ✔ | ✔ |
| Diseño | ✔ | ✔ | ✔ |
| Documento general | ✔ | ✔ | |
| Precompilado | ✔ | ✔ | |
| Extracción personalizada | ✔ | ✔ | |
| Clasificación personalizada | ✔ | ✔ | ✔ |
- Fotos y escaneos: Para obtener mejores resultados, proporcione una foto clara o un escaneo de alta calidad por documento.
- ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
- Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
- Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
- Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
- Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a un texto de 8 puntos a 150 puntos por pulgada.
- Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
- Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
- Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
- Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.
Pruebar extracción de datos de documentos de contrato
Vea cómo se extraen los datos, incluida la información del cliente, los detalles del proveedor y los elementos de línea, de los contratos. Necesita los siguientes recursos:
Una suscripción a Azure (se puede crear de forma gratuita).
Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (
F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.
Document Intelligence Studio
En la página principal de Estudio del documento de inteligencia, seleccione Documentos fiscales.
Puede analizar un documento fiscal de ejemplo o cargar sus propios archivos.
Seleccione el botón Ejecutar análisis y, si es necesario, configure las Opciones de Análisis:
Idiomas y configuraciones regionales compatibles
Para obtener una lista completa de los idiomas admitidos, consulte nuestra página de modelos precompilados Language Support—.
Extracción de campos
Para los campos de extracción de documentos admitidos, consulte la página esquema del modelo de contrato en nuestro repositorio de ejemplo de GitHub.
Los pares de clave/valor y los elementos de línea del contrato extraídos se encuentran en la sección
documentResultsde la salida JSON.
Pasos siguientes
Pruebe a procesar sus propios formularios y documentos con Document Intelligence Studio.
Complete una guía de Inicio rápido de Document Intelligence y empiece a crear una aplicación de procesamiento de documentos en el lenguaje de desarrollo que prefiera.