Classifier des données à l’aide de classificateurs avec capacité d’apprentissage
Les classifieurs pouvant être formés utilisent l’IA pour identifier et catégoriser les données qui ne peuvent pas être classifiées avec des modèles ou des mots clés prédéfinis. Contrairement aux types d’informations sensibles (SIT), qui détectent des données structurées telles que les numéros de carte de crédit ou de sécurité sociale, les classifieurs formables analysent le contenu en fonction de la signification et du contexte. Cela les rend utiles pour détecter les données non structurées, telles que les contrats, les rapports financiers ou les enregistrements RH.
Pourquoi utiliser des classifieurs pouvant être formés ?
De nombreuses organisations ont un contenu sensible qui ne suit pas un format prédictible. Les classifieurs pouvant être formés aident à :
- Identifiez les données complexes que les SIT ne peuvent pas détecter.
- Réduisez la dépendance à l’égard de la classification manuelle.
- Améliorez la conformité et la sécurité en reconnaissant automatiquement le contenu qui doit être protégé.
Types de classifieurs pouvant être formés
Microsoft Purview fournit deux types de classifieurs pouvant être formés :
- Classifieurs préentraînés : classifieurs intégrés prêts à être utilisés pour les types de contenu courants tels que les CV, le code source et le langage offensant. Microsoft met régulièrement à jour ces classifieurs pour améliorer la précision.
- Classifieurs pouvant être entraînés personnalisés : les organisations peuvent entraîner leurs propres classifieurs à l’aide d’exemples concrets pour détecter les données propres à leur entreprise. Les classifieurs personnalisés nécessitent un entraînement et un perfectionnement manuels pour améliorer la précision au fil du temps.
Classifieurs préentraînés
Les classifieurs préformés aident les organisations à identifier les types courants de données non structurées sans nécessiter de configuration manuelle. Elles sont conçues pour détecter les catégories de contenu difficiles à classer avec des méthodes traditionnelles basées sur des modèles.
Microsoft fournit des classifieurs préentraînés pour des types de contenu spécifiques, tels que :
- Langage offensant : détecte le contenu blasphématoire ou inapproprié.
- Cvs : identifie les CV des candidats à un emploi pour la gestion des données RH.
- Code source : permet de suivre et de protéger le code propriétaire ou sensible.
Les classifieurs préentraînés sont créés et affinés par Microsoft à l’aide de l’IA et du Machine Learning. Ils sont régulièrement mis à jour pour améliorer la précision et s’adapter aux types de contenu en constante évolution.
Où les classifieurs pouvant être entraînés sont utilisés
Les classifieurs pouvant être formés s’intègrent à plusieurs solutions Microsoft Purview, ce qui permet aux organisations de classifier et de gouverner efficacement les données :
- Stratégies d’étiquetage automatique : appliquez automatiquement des étiquettes de confidentialité en fonction des résultats du classifieur.
- Stratégies de rétention : identifiez et conservez le contenu important lors de la suppression des données obsolètes.
- Protection contre la perte de données (DLP) : empêcher le partage d’informations sensibles en dehors du organization.
- Conformité des communications : surveillez les messages pour détecter les violations de stratégie, y compris le contenu inapproprié.
Limitations des classifieurs pouvant être entraînés
Bien que les classifieurs entraînés fournissent une classification puissante pilotée par l’IA, ils présentent certaines limitations :
- Ils nécessitent un processus initial de formation et de révision pour améliorer la précision.
- Ils ne fonctionnent pas sur le contenu chiffré.
- Ils classifient uniquement le contenu dans les emplacements pris en charge (tels que SharePoint, OneDrive et Exchange).
Comparer les classifieurs pouvant être formés et les types d’informations sensibles
| Fonctionnalité | Classifieurs entraînables | Types d’informations sensibles (SIT) |
|---|---|---|
| Méthode de détection | Analyse basée sur l’IA | Basé sur des modèles (par exemple, regex, mots clés) |
| Idéal pour | Données non structurées | Données structurées |
| Vous avez besoin d’une formation ? | Oui | Non (sits intégrés) |
| Fonctionne avec l’étiquetage automatique, la DLP et la conformité ? | Oui | Oui |
| Détecte le contenu chiffré ? | Non | Non |