Creación de un clasificador personalizado que se puede entrenar

Completado

A menudo, las organizaciones necesitan clasificar datos no estructurados que no siguen patrones predecibles. Los clasificadores personalizados que se pueden entrenar le permiten entrenar Microsoft Purview para que reconozca contenido único proporcionando documentos de ejemplo para el análisis basado en inteligencia artificial. Una vez entrenados, los clasificadores se pueden usar para etiquetar automáticamente el contenido, aplicar directivas de retención y admitir el cumplimiento de la comunicación.

Cómo funcionan los clasificadores entrenables

Los clasificadores que se pueden entrenar usan el aprendizaje automático para detectar contenido basado en el significado y el contexto en lugar de patrones predefinidos. A diferencia de los tipos de información confidencial (SIT), que se basan en palabras clave o en la detección basada en patrones, los clasificadores entrenables mejoran la precisión de la clasificación mediante el análisis de ejemplos reales.

La creación de un clasificador implica el entrenamiento de un modelo con contenido de ejemplo, incluidos documentos pertinentes e irrelevantes. Este proceso ayuda al modelo a distinguir entre los datos que pertenecen a una categoría de clasificación y los datos que no lo hacen.

Requisitos

Antes de crear un clasificador, asegúrese de que cumple los requisitos de licencias y permisos.

Licencias

Los clasificadores que se pueden entrenar en Microsoft Purview requieren una de las siguientes combinaciones de licencias:

  • Microsoft 365 E5
  • Cumplimiento de Microsoft 365 E5
  • Microsoft 365 E3 con el complemento de Microsoft Purview Information Protection y gobernanza

Estas licencias incluyen acceso a características de clasificación avanzadas, como clasificadores entrenables, coincidencia exacta de datos, entidades con nombre y análisis contextual.

Permissions

Para crear y administrar clasificadores entrenables, los usuarios deben tener los permisos de rol adecuados. Los permisos necesarios dependen de dónde se usará el clasificador.

Escenario Permisos de rol necesarios
Directiva de etiqueta de retención Administración de registros, administración de retención
Directiva de etiqueta de confidencialidad Administrador de seguridad, administrador de cumplimiento, administrador de datos de cumplimiento
Directiva de cumplimiento de comunicaciones Administrador de administración de riesgos internos, administrador de revisión de supervisión

Importante

De forma predeterminada, solo el usuario que crea un clasificador personalizado puede entrenar y revisar las predicciones realizadas por ese clasificador.

Pasos para crear un clasificador que se puede entrenar

La creación de un clasificador sigue un proceso estructurado que incluye entrenamiento, pruebas y publicación.

Paso 1: Recopilar datos de entrenamiento

Para entrenar el clasificador, debe proporcionar dos conjuntos de datos de ejemplo seleccionados manualmente por los usuarios:

  • Ejemplos positivos (entre 50 y 500 elementos): documentos que pertenecen a la categoría.
  • Ejemplos negativos (150–1500 elementos): documentos que no pertenecen a la categoría.

Sugerencia

Cuanto más diversos y bien seleccionados sean los datos de entrenamiento, más preciso será el clasificador.

Paso 2: Almacenar datos en SharePoint

Almacene los ejemplos positivos y negativos en carpetas de SharePoint independientes. Asegúrese de que estas carpetas solo contienen los datos de entrenamiento correspondientes.

Nota:

Si crea carpetas nuevas, espere al menos una hora para la indexación antes de usarlas en la configuración del clasificador.

Paso 3: Crear el clasificador que se puede entrenar

  1. Inicie sesión en el portal de Microsoft Purview .
  2. Vaya a Information Protection>Clasificadores>entrenables.
  3. Seleccione Crear clasificador que se puede entrenar.
  4. Escriba un nombre y una descripción.
  5. Agregue la dirección URL de la carpeta de SharePoint para obtener ejemplos positivos y seleccione Siguiente.
  6. Agregue la dirección URL de la carpeta de SharePoint para ver ejemplos negativos y seleccione Siguiente.
  7. Revise la configuración y seleccione Crear clasificador entrenable.

Una vez creado, el clasificador comienza a procesar los datos de entrenamiento. El tiempo de procesamiento varía, pero normalmente se completa en un plazo de 24 horas.

Paso 4: Revisar y probar el clasificador

Una vez que el clasificador procesa suficientes muestras positivas y negativas, debe comprobar sus predicciones.

  1. Abra el clasificador y revise sus resultados.
  2. Confirme si cada predicción es correcta, incorrecta o incierta.
  3. Microsoft usa estos comentarios para refinar el modelo de clasificación.

Sugerencia

Se deben revisar al menos 200 elementos de prueba para obtener la mejor precisión.

Paso 5: Publicación del clasificador

Cuando esté satisfecho con la precisión del clasificador:

  1. Seleccione Publicar para su uso.
  2. El clasificador está disponible para:
    • Directivas de etiquetado automático
    • Directivas de retención
    • Prevención de pérdida de datos (DLP)
    • Cumplimiento de comunicaciones

El clasificador ahora identifica y clasifica automáticamente el contenido en función del entrenamiento.

Procedimientos recomendados para clasificadores personalizados que se pueden entrenar

  • Asegúrese de diversos ejemplos de entrenamiento: incluya un rango de contenido que represente con precisión la categoría de clasificación.
  • Evite el sobreajuste: no use demasiados documentos similares; mejora la flexibilidad del clasificador.
  • Revisar y volver a entrenar periódicamente: a medida que cambia el contenido, actualice los clasificadores para mantener la precisión.
  • Use al menos 200 elementos de prueba: para obtener mejores resultados, tenga al menos 200 elementos en el conjunto de muestras de prueba que incluya al menos 50 ejemplos positivos y al menos 150 ejemplos negativos. Esto mejora la confianza en las predicciones antes de publicar.