Beschriften Ihrer Daten
Das Bezeichnen oder Kategorisieren Ihrer Daten ist ein wichtiger Bestandteil des Prozesses zum Erstellen eines benutzerdefinierten Entitätsextraktionsmodells. Bezeichnungen identifizieren Beispiele für bestimmte Entitäten in Text, die zum Trainieren des Modells verwendet werden. Drei Dinge, auf die Sie sich konzentrieren müssen, sind:
- Konsistenz – Markieren Sie Ihre Daten in allen Dateien auf die gleiche Weise für das Training. Konsistenz ermöglicht es Ihrem Modell, ohne widersprüchliche Eingaben zu lernen.
- Genauigkeit – Beschriften Sie Ihre Entitäten konsistent, ohne unnötige zusätzliche Wörter. Genauigkeit stellt sicher, dass nur die richtigen Daten in Ihre extrahierte Entität einbezogen werden.
- Vollständigkeit – Bezeichnen Sie Ihre Daten vollständig, und verpassen Sie keine Entitäten. Die Vollständigkeit hilft Ihrem Modell dabei, die vorhandenen Entitäten immer zu erkennen.
Bezeichnen Ihrer Daten
Language Studio ist die einfachste Methode zum Bezeichnen Ihrer Daten. Mit Language Studio können Sie die Datei anzeigen, den Anfang und das Ende Ihrer Entität auswählen und angeben, welche Entität sie ist.
Jede Bezeichnung, die Sie identifizieren, wird in einer Datei gespeichert, die sich in Ihrem Speicherkonto mit Ihrem Dataset befindet, in einer automatisch generierten JSON-Datei. Diese Datei wird dann vom Modell verwendet, um zu erfahren, wie benutzerdefinierte Entitäten extrahiert werden. Es ist möglich, diese Datei beim Erstellen Ihres Projekts bereitzustellen (z. B. wenn Sie die gleichen Labels aus einem anderen Projekt importieren). Sie muss jedoch in den Akzeptierten benutzerdefinierten NER-Datenformaten vorliegen. Beispiel:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Feld | BESCHREIBUNG |
|---|---|
documents |
Array von etikettierten Dokumenten |
location |
Pfad zur Datei im Container, der mit dem Projekt verbunden ist |
language |
Sprache der Datei |
entities |
Array vorhandener Entitäten im aktuellen Dokument |
regionOffset |
Inklusive Zeichenposition für den Textanfang |
regionLength |
Länge der für das Training verwendeten Daten in Zeichen |
category |
Name der zu extrahierenden Entität |
labels |
Array von markierten Entitäten in den Dateien |
offset |
Inklusive Zeichenposition für den Start einer Entität |
length |
Länge der Entität in Zeichen |
dataset |
Welches Dataset die Datei zugewiesen ist |
