Tokenisierung
Hinweis
Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".
Der erste Schritt bei der Analyse eines Textkörpers (als Korpus bezeichnet) besteht darin, ihn in Token aufzuteilen. Aus Gründen der Einfachheit können Sie sich jedes unterschiedliche Wort im Text als Token vorstellen. In Wirklichkeit können Token für Teilwörter oder Kombinationen von Wörtern und Interpunktionszeichen generiert werden.
Betrachten Sie z. B. diesen Ausdruck aus einer berühmten US-Präsidentschaftsrede: "We choose to go to the moon". Der Ausdruck kann in die folgenden Elemente mit numerischen Bezeichnern unterteilt werden:
Wechoosetogotothemoon
Beachten Sie, dass "to" (Tokennummer 3) zweimal im Korpus verwendet wird. Der Ausdruck "We choose to go to the moon" kann durch die Token dargestellt werden.
Mit jedem Token, dem ein diskreter Wert zugewiesen wurde, können wir ihre Häufigkeit im Text ganz einfach zählen und diese verwenden, um die am häufigsten verwendeten Begriffe zu bestimmen; Dies kann hilfreich sein, um den Hauptthema des Texts zu identifizieren.
Wir haben ein einfaches Beispiel verwendet, in dem Token für jedes unterschiedliche Wort im Text identifiziert werden. Berücksichtigen Sie jedoch die folgenden Vorverarbeitungstechniken, die je nach dem spezifischen Problem der Textanalyse, das Sie lösen möchten, möglicherweise für die Tokenisierung gelten:
| Verfahren | Beschreibung |
|---|---|
| Textnormalisierung | Vor dem Generieren von Token können Sie den Text normalisieren , indem Sie Satzzeichen entfernen und alle Wörter in Kleinbuchstaben ändern. Bei der Analyse, die rein auf Wortfrequenz basiert, verbessert dieser Ansatz die Gesamtleistung. Einige semantische Bedeutungen könnten jedoch verloren gehen - zum Beispiel den Satz "Mr Banks has worked in many banks.". Möglicherweise möchten Sie, dass Ihre Analyse zwischen der Person "Mr Banks" und dem Umfeld "banks", in dem er gearbeitet hat, unterscheidet. Sie könnten auch "banks." als separates Token zu "banks" in Betracht ziehen, da die Einfügung eines Punktes die Information liefert, dass das Wort am Ende eines Satzes steht. |
| Entfernen von Wörtern beenden | Stoppwörter sind Wörter, die von der Analyse ausgeschlossen werden sollten. Beispielsweise machen "the", "a"oder "it" den Text leichter lesbar, fügen jedoch nur wenig semantische Bedeutung hinzu. Wenn Sie diese Wörter ausschließen, kann eine Textanalyselösung die wichtigen Wörter besser identifizieren. |
| N-Gramm-Extraktion | Suchen nach mehrgliedrigen Begriffen wie "artificial intelligence" oder "natural language processing". Ein einzelner Wortausdruck ist ein Unigramm, ein Zweiwortausdruck ist ein Bigram, ein Dreiwortausdruck ein Trigramm usw. In vielen Fällen kann ein Textanalysealgorithmus den Text besser verstehen, indem er häufig vorkommende Wortfolgen als Gruppen betrachtet. |
| Wortstammerkennung | Eine Technik, die verwendet wird, um Wörter zu konsolidieren, indem Endungen wie "s", "ing", "ed" usw. entfernt werden, bevor sie gezählt werden; so dass Wörter mit der gleichen etymologischen Wurzel, wie "powering", "powered"und "powerful", als dasselbe Token ("power") interpretiert werden. |
| Lemmatisierung | Ein weiterer Ansatz zum Reduzieren von Wörtern auf ihre Basis- oder Wörterbuchform (als Lemma bezeichnet). Im Gegensatz zum Stemming, bei dem einfach die Wortendungen abgeschnitten werden, verwendet die Lemmatisierung linguistische Regeln und Vokabular, um sicherzustellen, dass die resultierende Form ein gültiges Wort ist (z.B. "running": → "run", "global" → "globe"). |
| POS-Tagging (Parts of Speech) | Kennzeichnen jedes Tokens mit seiner grammatikalischen Kategorie, z. B. Substantiv, Verb, Adjektiv oder Adverb. Diese Technik verwendet linguistische Regeln und oft auch statistische Modelle, um anhand des Tokens selbst und seines Kontexts innerhalb des Satzes das richtige Tag zu bestimmen. |