Créer un classifieur pouvant être formé personnalisé

Effectué

Les organisations doivent souvent classifier des données non structurées qui ne suivent pas des modèles prédictibles. Les classifieurs pouvant être entraînés personnalisés vous permettent d’entraîner Microsoft Purview à reconnaître du contenu unique en fournissant des exemples de documents pour l’analyse basée sur l’IA. Une fois formés, les classifieurs peuvent être utilisés pour étiqueter automatiquement le contenu, appliquer des stratégies de rétention et prendre en charge la conformité des communications.

Fonctionnement des classifieurs pouvant être formés

Les classifieurs pouvant être formés utilisent le Machine Learning pour détecter le contenu en fonction de la signification et du contexte plutôt que des modèles prédéfinis. Contrairement aux types d’informations sensibles (SIT), qui s’appuient sur des mots clés ou une détection basée sur des modèles, les classifieurs entraînables améliorent la précision de la classification en analysant des exemples réels.

La création d’un classifieur implique l’apprentissage d’un modèle avec un exemple de contenu, y compris des documents pertinents et non pertinents. Ce processus permet au modèle de faire la distinction entre les données qui appartiennent à une catégorie de classification et les données qui ne le font pas.

Configuration requise

Avant de créer un classifieur, vérifiez que vous respectez les conditions de licence et d’autorisation.

Licences

Les classifieurs pouvant être formés dans Microsoft Purview nécessitent l’une des combinaisons de licences suivantes :

  • Microsoft 365 E5
  • Microsoft 365 E5 Conformité
  • Microsoft 365 E3 avec le module complémentaire Protection des données Microsoft Purview et gouvernance

Ces licences incluent l’accès à des fonctionnalités de classification avancées telles que les classifieurs pouvant être entraînés, la correspondance exacte des données, les entités nommées et l’analyse contextuelle.

Autorisations

Pour créer et gérer des classifieurs pouvant être formés, les utilisateurs doivent disposer des autorisations de rôle appropriées. Les autorisations requises dépendent de l’emplacement où le classifieur sera utilisé.

Scénario Autorisations de rôle requises
Stratégie d’étiquette de rétention Gestion des enregistrements, gestion de la rétention
Stratégie d’étiquette de confidentialité Administrateur de la sécurité, administrateur de conformité, administrateur des données de conformité
Stratégie de conformité des communications Administrateur de gestion des risques internes, administrateur de révision de surveillance

Importante

Par défaut, seul l’utilisateur qui crée un classifieur personnalisé peut entraîner et examiner les prédictions effectuées par ce classifieur.

Étapes de création d’un classifieur pouvant être formé

La création d’un classifieur suit un processus structuré qui comprend l’entraînement, le test et la publication.

Étape 1 : Collecter les données d’entraînement

Pour entraîner le classifieur, vous devez fournir deux jeux d’exemples de données sélectionnés manuellement par les utilisateurs :

  • Exemples positifs (50 à 500 éléments) : documents qui appartiennent à la catégorie .
  • Exemples négatifs (150 à 1 500 éléments) : documents qui n’appartiennent pas à la catégorie.

Conseil

Plus les données d’apprentissage sont diversifiées et bien sélectionnées, plus le classifieur est précis.

Étape 2 : Stocker des données dans SharePoint

Stockez les exemples positifs et négatifs dans des dossiers SharePoint distincts. Vérifiez que ces dossiers contiennent uniquement les données d’entraînement respectives.

Remarque

Si vous créez des dossiers, attendez au moins une heure pour l’indexation avant de les utiliser dans la configuration du classifieur.

Étape 3 : Créer le classifieur pouvant être formé

  1. Connectez-vous au portail Microsoft Purview .
  2. Accédez à Information Protection>Classifiers>Classifieurs pouvant être formés.
  3. Sélectionnez Créer un classifieur pouvant être entraîné.
  4. Entrez un nom et une description.
  5. Ajoutez l’URL du dossier SharePoint pour obtenir des exemples positifs , puis sélectionnez Suivant.
  6. Ajoutez l’URL du dossier SharePoint pour les exemples négatifs , puis sélectionnez Suivant.
  7. Examinez les paramètres et sélectionnez Créer un classificateur entraînable.

Une fois créé, le classifieur commence à traiter les données d’entraînement. Le temps de traitement varie, mais se termine généralement dans les 24 heures.

Étape 4 : Passer en revue et tester le classifieur

Une fois que le classifieur traite suffisamment d’échantillons positifs et négatifs, vous devez vérifier ses prédictions.

  1. Ouvrez le classifieur et passez en revue ses résultats.
  2. Vérifiez si chaque prédiction est correcte, incorrecte ou incertaine.
  3. Microsoft utilise ces commentaires pour affiner le modèle de classification.

Conseil

Au moins 200 éléments de test doivent être examinés pour une meilleure précision.

Étape 5 : Publier le classifieur

Lorsque vous êtes satisfait de la précision du classifieur :

  1. Sélectionnez Publier pour l’utiliser.
  2. Le classifieur devient disponible pour :
    • Stratégies d’étiquetage automatique
    • Stratégies de rétention
    • Protection contre la perte de données (DLP)
    • Conformité des communications

Le classifieur identifie et catégorise automatiquement le contenu en fonction de votre formation.

Bonnes pratiques pour les classifieurs pouvant être entraînés personnalisés

  • Garantir la diversité des exemples de formation : incluez une plage de contenu qui représente avec précision la catégorie de classification.
  • Éviter le surajustement : n’utilisez pas trop de documents similaires ; la diversité améliore la flexibilité du classifieur.
  • Réviser et réentraîner régulièrement : à mesure que le contenu change, mettez à jour les classifieurs pour maintenir la précision.
  • Utiliser au moins 200 éléments de test : pour de meilleurs résultats, disposez d’au moins 200 éléments dans votre jeu d’exemples de test, qui comprend au moins 50 exemples positifs et au moins 150 exemples négatifs. Cela améliore la confiance dans les prédictions avant la publication.