Erstellen eines benutzerdefinierten trainierbaren Klassifizierers
Organisationen müssen häufig unstrukturierte Daten klassifizieren, die nicht vorhersehbaren Mustern folgen. Mit benutzerdefinierten trainierbaren Klassifizierern können Sie Microsoft Purview trainieren, um eindeutige Inhalte zu erkennen, indem Sie Beispieldokumente für KI-basierte Analysen bereitstellen. Nach dem Trainieren können Klassifizierer verwendet werden, um Inhalte automatisch zu bezeichnen, Aufbewahrungsrichtlinien anzuwenden und die Kommunikationskonformität zu unterstützen.
Funktionsweise trainierbarer Klassifizierer
Trainierbare Klassifizierer verwenden maschinelles Lernen, um Inhalte basierend auf Bedeutung und Kontext anstelle vordefinierter Muster zu erkennen. Im Gegensatz zu sensiblen Informationstypen (SITs), die auf Schlüsselwörtern oder musterbasierter Erkennung basieren, verbessern trainierbare Klassifizierer die Klassifizierungsgenauigkeit, indem sie reale Beispiele analysieren.
Das Erstellen eines Klassifizierers umfasst das Trainieren eines Modells mit Beispielinhalten, einschließlich relevanter und irrelevanter Dokumente. Dieser Prozess hilft dem Modell, zwischen Daten zu unterscheiden, die zu einer Klassifizierungskategorie gehören, und Daten, die dies nicht der Fall ist.
Anforderungen
Stellen Sie vor dem Erstellen einer Klassifizierung sicher, dass Sie die Lizenzierungs- und Berechtigungsanforderungen erfüllen.
Lizenzierung
Trainierbare Klassifizierer in Microsoft Purview erfordern eine der folgenden Lizenzkombinationen:
- Microsoft 365 E5
- Microsoft 365 E5 Compliance
- Microsoft 365 E3 mit dem Microsoft Purview Information Protection- und Governance-Add-On
Diese Lizenzen umfassen Den Zugriff auf erweiterte Klassifizierungsfeatures wie trainierbare Klassifizierer, genaue Dateneinstimmung, benannte Entitäten und kontextbezogene Analysen.
Berechtigungen
Zum Erstellen und Verwalten trainierbarer Klassifizierer müssen Benutzer über die entsprechenden Rollenberechtigungen verfügen. Die erforderlichen Berechtigungen hängen davon ab, wo der Klassifizierer verwendet wird.
| Szenario | Erforderliche Rollenberechtigungen |
|---|---|
| Richtlinie für Aufbewahrungsbezeichnungen | Datensatzverwaltung, Aufbewahrungsverwaltung |
| Richtlinie für Vertraulichkeitsbezeichnungen | Sicherheitsadministrator, Complianceadministrator, Compliancedatenadministrator |
| Kommunikationskonformitätsrichtlinie | Insider-Risikomanagementadministrator, Aufsichtsüberprüfungsadministrator |
Wichtig
Standardmäßig kann nur der Benutzer, der einen benutzerdefinierten Klassifizierer erstellt, vorhersagen, die von diesem Klassifizierer erstellt werden, trainieren und überprüfen.
Schritte zum Erstellen eines trainierbaren Klassifizierers
Das Erstellen eines Klassifizierers folgt einem strukturierten Prozess, der Training, Tests und Veröffentlichung umfasst.
Schritt 1: Sammeln von Trainingsdaten
Zum Trainieren der Klassifizierung müssen Sie zwei Sätze von Beispieldaten bereitstellen, die manuell von Benutzern ausgewählt werden:
- Positive Beispiele (50–500 Elemente): Dokumente, die zur Kategorie gehören.
- Negative Beispiele (150–1500 Elemente): Dokumente, die nicht in die Kategorie gehören.
Tipp
Je vielfältiger und gut ausgewählt die Trainingsdaten, desto genauer die Klassifizierer.
Schritt 2: Speichern von Daten in SharePoint
Speichern Sie die positiven und negativen Beispiele in separaten SharePoint-Ordnern . Stellen Sie sicher, dass diese Ordner nur die entsprechenden Trainingsdaten enthalten.
Hinweis
Wenn Sie neue Ordner erstellen, warten Sie mindestens eine Stunde auf die Indizierung, bevor Sie sie im Klassifizierersetup verwenden.
Schritt 3: Erstellen des trainierbaren Klassifizierers
- Melden Sie sich beim Microsoft Purview-Portal an.
- Navigieren Sie zu Information Protection>Klassifizierer>Trainierbare Klassifizierer.
- Wählen Sie Trainierbare Klassifizierung erstellen aus.
- Geben Sie einen Namen und eine Beschreibung ein.
- Fügen Sie die SharePoint-Ordner-URL für positive Beispiele hinzu, und wählen Sie Weiter aus.
- Fügen Sie die SharePoint-Ordner-URL für negative Beispiele hinzu, und wählen Sie Weiter aus.
- Überprüfen Sie die Einstellungen, und wählen Sie Trainierbare Klassifizierung erstellen aus.
Nach der Erstellung beginnt der Klassifizierer mit der Verarbeitung der Trainingsdaten. Die Verarbeitungszeit variiert, wird aber in der Regel innerhalb von 24 Stunden abgeschlossen.
Schritt 4: Überprüfen und Testen der Klassifizierung
Sobald der Klassifizierer genügend positive und negative Stichproben verarbeitet hat, müssen Sie seine Vorhersagen überprüfen.
- Öffnen Sie den Klassifizierer, und überprüfen Sie die Ergebnisse.
- Überprüfen Sie, ob jede Vorhersage richtig, falsch oder unsicher ist.
- Microsoft verwendet dieses Feedback, um das Klassifizierungsmodell zu verfeinern.
Tipp
Mindestens 200 Testelemente sollten auf die beste Genauigkeit überprüft werden.
Schritt 5: Veröffentlichen der Klassifizierung
Wenn Sie mit der Genauigkeit des Klassifizierers zufrieden sind:
- Wählen Sie Veröffentlichen zur Verwendung aus.
- Der Klassifizierer ist verfügbar für:
- Richtlinien für die automatische Bezeichnung
- Aufbewahrungsrichtlinien
- Verhinderung von Datenverlusten (Data Loss Prevention, DLP)
- Kommunikationscompliance
Der Klassifizierer identifiziert und kategorisiert inhalte jetzt automatisch basierend auf Ihrem Training.
Bewährte Methoden für benutzerdefinierte trainierbare Klassifizierer
- Sicherstellen verschiedener Trainingsbeispiele: Fügen Sie eine Reihe von Inhalten ein, die die Klassifizierungskategorie genau darstellen.
- Überanpassung vermeiden: Verwenden Sie nicht zu viele ähnliche Dokumente. Diversity verbessert die Klassifiziererflexibilität.
- Regelmäßiges Überprüfen und erneutes Trainieren: Wenn sich Inhalte ändern, aktualisieren Sie Klassifizierer, um die Genauigkeit zu gewährleisten.
- Verwenden Sie mindestens 200 Testelemente: Um optimale Ergebnisse zu erzielen, verfügen Sie über mindestens 200 Elemente in Ihrem Testbeispielsatz, der mindestens 50 positive Und mindestens 150 negative Beispiele enthält. Dies verbessert das Vertrauen in Vorhersagen vor der Veröffentlichung.