Beschriften Ihrer Daten

Abgeschlossen

Das Bezeichnen oder Kategorisieren Ihrer Daten ist ein wichtiger Bestandteil des Prozesses zum Erstellen eines benutzerdefinierten Entitätsextraktionsmodells. Bezeichnungen identifizieren Beispiele für bestimmte Entitäten in Text, die zum Trainieren des Modells verwendet werden. Drei Dinge, auf die Sie sich konzentrieren müssen, sind:

  • Konsistenz – Markieren Sie Ihre Daten in allen Dateien auf die gleiche Weise für das Training. Konsistenz ermöglicht es Ihrem Modell, ohne widersprüchliche Eingaben zu lernen.
  • Genauigkeit – Beschriften Sie Ihre Entitäten konsistent, ohne unnötige zusätzliche Wörter. Genauigkeit stellt sicher, dass nur die richtigen Daten in Ihre extrahierte Entität einbezogen werden.
  • Vollständigkeit – Bezeichnen Sie Ihre Daten vollständig, und verpassen Sie keine Entitäten. Die Vollständigkeit hilft Ihrem Modell dabei, die vorhandenen Entitäten immer zu erkennen.

Screenshot der Bezeichnung einer Entität in Language Studio.

Bezeichnen Ihrer Daten

Language Studio ist die einfachste Methode zum Bezeichnen Ihrer Daten. Mit Language Studio können Sie die Datei anzeigen, den Anfang und das Ende Ihrer Entität auswählen und angeben, welche Entität sie ist.

Jede Bezeichnung, die Sie identifizieren, wird in einer Datei gespeichert, die sich in Ihrem Speicherkonto mit Ihrem Dataset befindet, in einer automatisch generierten JSON-Datei. Diese Datei wird dann vom Modell verwendet, um zu erfahren, wie benutzerdefinierte Entitäten extrahiert werden. Es ist möglich, diese Datei beim Erstellen Ihres Projekts bereitzustellen (z. B. wenn Sie die gleichen Labels aus einem anderen Projekt importieren). Sie muss jedoch in den Akzeptierten benutzerdefinierten NER-Datenformaten vorliegen. Beispiel:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Feld BESCHREIBUNG
documents Array von etikettierten Dokumenten
location Pfad zur Datei im Container, der mit dem Projekt verbunden ist
language Sprache der Datei
entities Array vorhandener Entitäten im aktuellen Dokument
regionOffset Inklusive Zeichenposition für den Textanfang
regionLength Länge der für das Training verwendeten Daten in Zeichen
category Name der zu extrahierenden Entität
labels Array von markierten Entitäten in den Dateien
offset Inklusive Zeichenposition für den Start einer Entität
length Länge der Entität in Zeichen
dataset Welches Dataset die Datei zugewiesen ist