Partager via


Prise en main des classifieurs avec capacité d’apprentissage

Un classifieur pouvant être entraîné Microsoft Purview est un outil que vous pouvez entraîner pour reconnaître différents types de contenu en lui donnant des exemples à évaluer. Une fois l’apprentissage effectué, vous pouvez l’utiliser pour identifier les éléments pour l’application des étiquettes de confidentialité Office, des stratégies de conformité des communications et des stratégies d’étiquette de rétention.

L’implémentation d’un classifieur pouvant être formé personnalisé nécessite deux étapes :

  1. Fournissez deux ensembles d’exemples de données (sélectionnés par des humains).
    1. Jeu qui contient uniquement les éléments qui appartiennent à la catégorie.
    2. Jeu qui contient uniquement les éléments qui n’appartiennent pas à la catégorie.
  2. Testez la capacité du classifieur à détecter les correspondances.

Cet article explique comment créer et tester un classifieur personnalisé.

Pour plus d’informations sur les différents types de classifieurs, consultez En savoir plus sur les classifieurs pouvant être entraînés.

Importante

Conformité des communications Microsoft Purview prend uniquement en charge l’utilisation des classifieurs pouvant être formés fournis par Microsoft. Les classifieurs pouvant être formés personnalisés ne sont pas pris en charge.

Conditions préalables

Licences

Pour plus d’informations sur les licences, consultez

Autorisations

Pour utiliser des classifieurs dans les scénarios suivants, vous avez besoin des autorisations suivantes :

Scénario Autorisations de rôle requises
Stratégie d’étiquette de rétention Gestion des enregistrements
Gestion de la rétention
Stratégie d’étiquette de confidentialité Administrateur de sécurité
Administrateur de conformité
Administrateur de conformité des données
Stratégie de conformité des communications Administrateur de gestion des risques internes
Administrateur de révision de supervision

Importante

Par défaut, seul l’utilisateur qui crée un classifieur personnalisé peut l’entraîner et passer en revue les prédictions effectuées par ce classifieur.

Préparer un classifieur entraînable personnalisé

Avant de créer un classifieur pouvant être formé personnalisé, il est utile de comprendre ce qui est impliqué.

Flux de travail d’installation global

Pour plus d’informations sur le flux de travail global de création de classifieurs pouvant être entraînés personnalisés, consultez le flux de processus de création de classifieurs pouvant être formés personnalisés.

Contenu d’origine

Pour vous assurer que votre classifieur pouvant être entraîné peut identifier de manière indépendante et précise qu’un élément appartient à une catégorie particulière de contenu, vous devez lui présenter de nombreux exemples du type de contenu qui se trouve dans la catégorie. Cette alimentation d’échantillons dans le classifieur pouvant être entraîné est appelée amorçage. Un humain doit sélectionner le contenu de départ et ce contenu doit inclure deux ensembles de données : un ensemble contient uniquement des éléments qui représentent fortement le contenu que le classifieur est conçu pour détecter (échantillons positifs) et un deuxième ensemble contient des éléments qui n’appartiennent clairement pas (exemples négatifs).

Vous avez besoin d’au moins 50 échantillons positifs (jusqu’à 500) et d’au moins 150 échantillons négatifs (jusqu’à 1 500) pour entraîner un classifieur. Plus vous fournissez d’échantillons, plus les prédictions du classifieur seront précises. Le classifieur pouvant être formé traite jusqu’aux 2 000 exemples les plus récemment créés (par horodatage créé par fichier).

Conseil

Pour de meilleurs résultats, vous devez disposer d’au moins 200 éléments dans votre jeu d’échantillons de test qui comprend au moins 50 exemples positifs et au moins 150 exemples négatifs.

Comment créer un classificateur entraînable

En préversion : Le processus suivant automatise le test des classifieurs pouvant être entraînés et raccourcit le flux de travail de création de 12 jours à deux jours. Dans certains cas, le processus ne peut prendre que quelques heures.

  1. Collectez entre 50 et 500 éléments de contenu de départ qui représentent fortement les données que le classifieur doit identifier positivement comme faisant partie de la catégorie. Pour obtenir la liste des types de fichiers pris en charge, voir Extensions de nom de fichier analysés par défaut et types de fichiers analysés dans SharePoint Server.

  2. Collectez un deuxième ensemble de contenu de départ (de 150 à 1 500 éléments) qui représente des données qui n’appartiennent pas à la catégorie.

  3. Placez le contenu de départ positif et négatif dans des dossiers SharePoint distincts. Chaque dossier doit être dédié à ne contenir que le contenu initial. Notez l’URL du site, de la bibliothèque et du dossier pour chaque ensemble.

    Conseil

    Si vous créez un site et un dossier SharePoint pour vos données initiales, prévoyez au moins une heure pour que cet emplacement soit indexé avant de créer le classifieur pouvant être formé qui utilise ces données initiales.

  4. Connectez-vous au portail Microsoft Purview avec un accès au rôle Administrateur de la conformité ou Administrateur de la sécurité, puis accédez à Protection contre la> perte de donnéesClassifieurs declassification> des données.

Importante

Le compte que vous utilisez doit avoir accès aux dossiers de contenu initial dans SharePoint.

  1. Sélectionnez l’onglet Classifieurs pouvant être formés .

  2. Sélectionnez Créer un classifieur pouvant être entraîné.

  3. Ajoutez la source de vos exemples positifs : sélectionnez le site, la bibliothèque et l’URL du dossier SharePoint pour le contenu initial que le classifieur doit détecter, puis choisissez Suivant.

  4. Ajoutez la source de vos exemples négatifs : sélectionnez le site, la bibliothèque et l’URL du dossier SharePoint pour le contenu initial que le classifieur doit ignorer, puis choisissez Suivant.

  5. Examinez les paramètres et sélectionnez Créer un classificateur entraînable.

  6. Dans un délai de 24 heures ou moins, le classifieur pouvant être entraîné traite les données initiales et génère un modèle de prédiction. L'état du classificateur est en cours pendant qu'il traite les données de base. Lorsque le classifieur a terminé le traitement des données initiales, le status modifications apportées à l’entraînement est terminée et les éléments ont été testés.

  7. Une fois l’entraînement terminé et que les éléments sont (automatiquement) testés, publiez le classifieur en choisissant Publier pour l’utiliser.

Une fois que vous avez publié votre classifieur, il est disponible en tant que condition dans l’étiquetage automatique Office avec des étiquettes de confidentialité, la stratégie d’étiquette de rétention d’application automatique basée sur une condition et dans Conformité des communications.

Tester votre classifieur

Une fois que le classifieur entraînable traite suffisamment d’échantillons positifs et négatifs pour générer un modèle de prédiction, testez les prédictions qu’il effectue. Lorsque vous testez le classifieur, vous vérifiez si ses prédictions sont correctes. Une fois que le classifieur a traité toutes les données, vous pouvez passer en revue les résultats pour vérifier si chaque prédiction est correcte, incorrecte ou incertaine. Microsoft utilise ces commentaires dans l’ensemble pour améliorer le modèle de prédiction.

Voir aussi