Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Un clasificador entrenable de Microsoft Purview es una herramienta que se puede entrenar para reconocer varios tipos de contenido al darle ejemplos para evaluar. Una vez entrenado, puede usarlo para identificar elementos para la aplicación de etiquetas de confidencialidad de Office, directivas de cumplimiento de comunicaciones y directivas de etiquetas de retención.
La implementación de un clasificador personalizado que se puede entrenar requiere dos pasos:
- Proporcione dos conjuntos de datos de ejemplo (seleccionados por humanos).
- Conjunto que solo contiene elementos que pertenecen a la categoría.
- Conjunto que contiene solo elementos que no pertenecen a la categoría.
- Pruebe la capacidad del clasificador para detectar coincidencias.
En este artículo se explica cómo crear y probar un clasificador personalizado.
Para obtener más información sobre los diferentes tipos de clasificadores, consulte Más información sobre los clasificadores que se pueden entrenar.
Importante
Cumplimiento de comunicaciones de Microsoft Purview solo admite el uso de clasificadores entrenables proporcionados por Microsoft. No se admiten clasificadores entrenables personalizados.
Requisitos previos
Licencias
Para obtener información sobre las licencias, consulte
Permissions
Para usar clasificadores en los siguientes escenarios, necesita los permisos siguientes:
| Escenario | Permisos de rol necesarios |
|---|---|
| Directiva de etiqueta de retención | Administración de registros Administración de retención |
| Directiva de etiqueta de confidencialidad | Administrador de seguridad Administrador de cumplimiento Administrador de datos de cumplimiento |
| Directiva de cumplimiento de comunicaciones | Administrador de administración de riesgos internos Administrador de revisión de supervisión |
Importante
De forma predeterminada, solo el usuario que crea un clasificador personalizado puede entrenarlo y revisar las predicciones realizadas por ese clasificador.
Preparación para un clasificador personalizado que se puede entrenar
Antes de crear un clasificador personalizado que se puede entrenar, resulta útil comprender lo que implica.
Flujo de trabajo general
Para obtener más información sobre el flujo de trabajo general de la creación de clasificadores entrenables personalizados, consulte el flujo de proceso para crear clasificadores entrenables personalizados.
Contenido representativo
Para asegurarse de que el clasificador que se puede entrenar pueda identificar de forma independiente y precisa que un elemento pertenece a una categoría determinada de contenido, debe presentarlo con muchos ejemplos del tipo de contenido que se encuentra en la categoría. Esta alimentación de muestras al clasificador entrenable se conoce como propagación. Un humano debe seleccionar el contenido de inicialización y ese contenido debe incluir dos conjuntos de datos: un conjunto contiene solo elementos que representan fuertemente el contenido que el clasificador está diseñado para detectar (muestras positivas) y un segundo conjunto contiene elementos que claramente no pertenecen (muestras negativas).
Necesita al menos 50 muestras positivas (hasta 500) y al menos 150 muestras negativas (hasta 1500) para entrenar un clasificador. Cuantos más ejemplos proporcione, más precisas serán las predicciones que realice el clasificador. El clasificador entrenable procesa hasta los 2000 ejemplos creados más recientemente (por marca de fecha y hora creada por el archivo).
Sugerencia
Para obtener mejores resultados, tenga al menos 200 elementos en el conjunto de muestras de prueba que incluya al menos 50 ejemplos positivos y al menos 150 ejemplos negativos.
Cómo crear un clasificador entrenable
En versión preliminar: El siguiente proceso automatiza las pruebas de clasificadores entrenables y acorta el flujo de trabajo de creación de 12 días a dos días. En algunos casos, el proceso puede tardar solo unas horas.
Recopile entre 50 y 500 elementos de contenido de inicialización que representen fuertemente los datos que desea que el clasificador identifique positivamente como que están en la categoría. Para obtener una lista de los tipos de archivo admitidos, vea Extensiones predeterminadas de nombre de archivo rastreado y tipos de archivo analizados en SharePoint Server.
Recopile un segundo conjunto de contenido de inicialización (de 150 a 1500 elementos) que represente datos que no pertenecen a la categoría.
Coloque el contenido de inicialización positivo y negativo en carpetas de SharePoint independientes. Cada carpeta debe estar dedicada a contener solo el contenido de inicialización. Anote la dirección URL del sitio, la biblioteca y la carpeta para cada conjunto.
Sugerencia
Si crea un nuevo sitio y una carpeta de SharePoint para los datos de inicialización, espere al menos una hora para que esa ubicación se indexe antes de crear el clasificador entrenable que usa esos datos de inicialización.
Inicie sesión en el portal de Microsoft Purview con acceso al rol administrador de cumplimiento o administrador de seguridad y vaya aClasificadores declasificación de datos de prevención>> de pérdida de datos.
Importante
La cuenta que use debe tener acceso a las carpetas de contenido de inicialización de SharePoint.
Seleccione la pestaña Clasificadores entrenables .
Seleccione Crear clasificador que se puede entrenar.
Agregue el origen de los ejemplos positivos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que el clasificador debe detectar y, a continuación, elija Siguiente.
Agregue el origen de los ejemplos negativos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que el clasificador debe omitir y, a continuación, elija Siguiente.
Revise la configuración y seleccione Crear clasificador entrenable.
En un plazo de 24 horas o menos, el clasificador que se puede entrenar procesa los datos de inicialización y compila un modelo de predicción. El estado del clasificador es En curso mientras procesa los datos representativos. Cuando el clasificador termina de procesar los datos de inicialización, se completan los cambios de estado en Entrenamiento y se han probado los elementos.
Cuando se complete el entrenamiento y los elementos se prueben (automáticamente), publique el clasificador eligiendo Publicar para su uso.
Después de publicar el clasificador, está disponible como una condición en el etiquetado automático de Office con etiquetas de confidencialidad, la directiva de etiquetas de retención de aplicación automática basada en una condición y en Cumplimiento de comunicaciones.
Prueba del clasificador
Después de que el clasificador que se puede entrenar procese suficientes muestras positivas y negativas para crear un modelo de predicción, pruebe las predicciones que realiza. Al probar el clasificador, se comprueba si sus predicciones son correctas. Después de que el clasificador procese todos los datos, puede recorrer los resultados para comprobar si cada predicción es correcta, incorrecta o incierta. Microsoft usa estos comentarios de forma agregada para mejorar el modelo de predicción.
Vea también
- Obtenga más información acerca de la prevención contra la pérdida de datos
- Etiquetas de confidencialidad
- Definiciones de entidad de tipos de información confidencial
- Impresión con dedo del documento
- Obtener información sobre los tipos de información confidencial basados en coincidencias exactas de datos