Daten klassifizieren mithilfe trainierbaren Klassifizierern
Trainierbare Klassifizierer verwenden KI, um Daten zu identifizieren und zu kategorisieren, die nicht mit vordefinierten Mustern oder Schlüsselwörtern klassifiziert werden können. Im Gegensatz zu sensiblen Informationstypen (SITs), die strukturierte Daten wie Kredit- Karte-Nummern oder Sozialversicherungsnummern erkennen, analysieren trainierbare Klassifizierer Inhalte basierend auf Bedeutung und Kontext. Dies macht sie nützlich für die Erkennung unstrukturierter Daten, z. B. Verträge, Finanzberichte oder Personalakten.
Gründe für die Verwendung trainierbarer Klassifizierer
Viele Organisationen verfügen über vertrauliche Inhalte, die kein vorhersagbares Format aufweisen. Trainierbare Klassifizierer helfen:
- Identifizieren sie komplexe Daten, die SITs nicht erkennen können.
- Verringern Sie die Abhängigkeit von der manuellen Klassifizierung.
- Verbessern Sie die Compliance und Sicherheit, indem Sie automatisch Inhalte erkennen, die geschützt werden sollen.
Typen von trainierbaren Klassifizierern
Microsoft Purview bietet zwei Arten von trainierbaren Klassifizierern:
- Vortrainierte Klassifizierer: Integrierte Klassifizierer, die für allgemeine Inhaltstypen wie Lebensläufe, Quellcode und anstößige Sprache verwendet werden können. Microsoft aktualisiert diese Klassifizierer regelmäßig, um die Genauigkeit zu verbessern.
- Benutzerdefinierte trainierbare Klassifizierer: Organisationen können ihre eigenen Klassifizierer mit realen Beispielen trainieren, um Daten zu erkennen, die für ihr Unternehmen eindeutig sind. Benutzerdefinierte Klassifizierer erfordern manuelles Training und Verfeinerung, um die Genauigkeit im Laufe der Zeit zu verbessern.
Vortrainierte Klassifizierer
Vortrainierte Klassifizierer helfen Organisationen dabei, gängige Typen unstrukturierter Daten zu identifizieren, ohne dass eine manuelle Einrichtung erforderlich ist. Sie sind darauf ausgelegt, Inhaltskategorien zu erkennen, die mit herkömmlichen musterbasierten Methoden schwer zu klassifizieren sind.
Microsoft stellt vortrainierte Klassifizierer für bestimmte Inhaltstypen bereit, z. B.:
- Anstößige Sprache: Erkennt anstößige oder unangemessene Inhalte.
- Lebensläufe: Identifiziert Die Lebenslauf von Bewerbern für die Verwaltung von Personaldaten.
- Quellcode: Hilft beim Nachverfolgen und Schützen von proprietärem oder sensiblem Code.
Vortrainierte Klassifizierer werden von Microsoft mithilfe von KI und maschinellem Lernen erstellt und optimiert. Sie werden regelmäßig aktualisiert, um die Genauigkeit zu verbessern und sich an sich entwickelnde Inhaltstypen anzupassen.
Wo trainierbare Klassifizierer verwendet werden
Trainierbare Klassifizierer lassen sich in mehrere Microsoft Purview-Lösungen integrieren, sodass Organisationen Daten effektiv klassifizieren und steuern können:
- Richtlinien für automatische Bezeichnungen: Wenden Sie Vertraulichkeitsbezeichnungen automatisch basierend auf den Klassifizierungsergebnissen an.
- Aufbewahrungsrichtlinien: Identifizieren und aufbewahren Sie wichtige Inhalte, während veraltete Daten gelöscht werden.
- Verhinderung von Datenverlust (Data Loss Prevention, DLP): Verhindern Sie, dass vertrauliche Informationen außerhalb des organization freigegeben werden.
- Kommunikationskonformität: Überwachen Sie Nachrichten auf Richtlinienverstöße, einschließlich unangemessener Inhalte.
Einschränkungen von trainierbaren Klassifizierern
Trainierbare Klassifizierer bieten zwar eine leistungsstarke KI-gesteuerte Klassifizierung, weisen jedoch einige Einschränkungen auf:
- Sie erfordern einen ersten Schulungs- und Überprüfungsprozess , um die Genauigkeit zu verbessern.
- Sie funktionieren nicht mit verschlüsselten Inhalten.
- Sie klassifizieren Inhalte nur an unterstützten Speicherorten (z. B. SharePoint, OneDrive und Exchange).
Vergleichen von trainierbaren Klassifizierern und Typen vertraulicher Informationen
| Feature | Trainierbare Klassifizierer | Typen vertraulicher Informationen (SITs) |
|---|---|---|
| Erkennungsmethode | KI-basierte Analyse | Musterbasiert (z. B. RegEx, Schlüsselwörter) |
| Am besten geeignet für | Unstrukturierte Daten | Strukturierte Daten |
| Erfordert Schulung? | Ja | Nein (integrierte SITs) |
| Funktioniert mit automatischer Bezeichnung, DLP und Compliance? | Ja | Ja |
| Erkennt verschlüsselte Inhalte? | Nein | Nein |