Clasificar los datos con clasificadores que se pueden entrenar

Completado

Los clasificadores entrenables usan la inteligencia artificial para identificar y clasificar los datos que no se pueden clasificar con patrones predefinidos o palabras clave. A diferencia de los tipos de información confidencial (SIT), que detectan datos estructurados como números de tarjeta de crédito o números de seguro social, los clasificadores entrenables analizan el contenido en función del significado y el contexto. Esto los hace útiles para detectar datos no estructurados, como contratos, informes financieros o registros de RR. HH.

¿Por qué usar clasificadores entrenables?

Muchas organizaciones tienen contenido confidencial que no sigue un formato predecible. Los clasificadores entrenables ayudan a:

  • Identifique los datos complejos que los SIT no pueden detectar.
  • Reduzca la dependencia de la clasificación manual.
  • Mejore el cumplimiento y la seguridad al reconocer automáticamente el contenido que debe protegerse.

Tipos de clasificadores entrenables

Microsoft Purview proporciona dos tipos de clasificadores entrenables:

  • Clasificadores previamente entrenados: clasificadores integrados que están listos para usarse para tipos de contenido comunes, como reanudaciones, código fuente y lenguaje ofensivo. Microsoft actualiza periódicamente estos clasificadores para mejorar la precisión.
  • Clasificadores entrenables personalizados: las organizaciones pueden entrenar sus propios clasificadores mediante ejemplos reales para detectar datos únicos para su empresa. Los clasificadores personalizados requieren entrenamiento y refinamiento manuales para mejorar la precisión con el tiempo.

Clasificadores previamente entrenados

Los clasificadores previamente entrenados ayudan a las organizaciones a identificar tipos comunes de datos no estructurados sin necesidad de configuración manual. Están diseñados para detectar categorías de contenido difíciles de clasificar con métodos tradicionales basados en patrones.

Microsoft proporciona clasificadores previamente entrenados para tipos específicos de contenido, como:

  • Lenguaje ofensivo: detecta contenido profano o inadecuado.
  • Reanudaciones: identifica las reanudaciones del solicitante de trabajo para la administración de datos de RR. HH.
  • Código fuente: ayuda a realizar un seguimiento y proteger el código propietario o confidencial.

Microsoft crea y refina los clasificadores previamente entrenados mediante inteligencia artificial y aprendizaje automático. Se actualizan periódicamente para mejorar la precisión y adaptarse a los tipos de contenido en constante evolución.

Donde se usan clasificadores entrenables

Los clasificadores entrenables se integran con varias soluciones de Microsoft Purview, lo que permite a las organizaciones clasificar y controlar los datos de forma eficaz:

  • Directivas de etiquetado automático: aplique etiquetas de confidencialidad automáticamente en función de los resultados del clasificador.
  • Directivas de retención: identifique y retenga contenido importante mientras elimina datos obsoletos.
  • Prevención de pérdida de datos (DLP): evite que la información confidencial se comparta fuera de la organización.
  • Cumplimiento de comunicaciones: supervise los mensajes para detectar infracciones de directivas, incluido el contenido inadecuado.

Limitaciones de clasificadores entrenables

Aunque los clasificadores entrenables proporcionan una clasificación eficaz basada en inteligencia artificial, tienen algunas limitaciones:

  • Requieren un proceso inicial de entrenamiento y revisión para mejorar la precisión.
  • No funcionan con contenido cifrado.
  • Solo clasifican el contenido en ubicaciones admitidas (como SharePoint, OneDrive y Exchange).

Comparación de clasificadores entrenables y tipos de información confidencial

Característica Clasificadores capacitados Tipos de información confidencial (SIT)
Método de detección Análisis basado en inteligencia artificial Basado en patrones (por ejemplo, regex, palabras clave)
Lo mejor para Datos no estructurados Datos estructurados
¿Requiere entrenamiento? No (SIT integrados)
¿Funciona con el etiquetado automático, DLP y el cumplimiento?
¿Detecta contenido cifrado? No No