Tokenisatie
Opmerking
Zie het tabblad Tekst en afbeeldingen voor meer informatie.
De eerste stap bij het analyseren van een teksttekst (aangeduid als een corpus) is het opsplitsen in tokens. Omwille van de eenvoud kunt u elk afzonderlijk woord in de tekst beschouwen als een token. In werkelijkheid kunnen tokens worden gegenereerd voor gedeeltelijke woorden of combinaties van woorden en leestekens.
Denk bijvoorbeeld aan deze zin uit een beroemde amerikaanse presidentiële toespraak: "We choose to go to the moon". De woordgroep kan worden opgesplitst in de volgende tokens, met numerieke id's:
Wechoosetogotothemoon
U ziet dat "to" (tokennummer 3) tweemaal in het corpus wordt gebruikt. De woordgroep "We choose to go to the moon" kan worden vertegenwoordigd door de tokens.
Wanneer aan elk token een discrete waarde is toegewezen, kunnen we eenvoudig hun frequentie in de tekst tellen en gebruiken om de meest gebruikte termen te bepalen; wat kan helpen bij het identificeren van het hoofdonderwerp van de tekst.
We hebben een eenvoudig voorbeeld gebruikt waarin tokens worden geïdentificeerd voor elk afzonderlijk woord in de tekst. Houd echter rekening met de volgende voorverwerkingstechnieken die van toepassing kunnen zijn op tokenisatie, afhankelijk van het specifieke probleem met tekstanalyse dat u probeert op te lossen:
| Techniek | Beschrijving |
|---|---|
| Tekstnormalisatie | Voordat u tokens genereert, kunt u ervoor kiezen om de tekst te normaliseren door leestekens te verwijderen en alle woorden te wijzigen in kleine letters. Voor analyse die uitsluitend afhankelijk is van woordfrequentie, verbetert deze benadering de algehele prestaties. Een aantal semantische betekenissen kan echter verloren gaan, bijvoorbeeld als u de zin beschouwt "Mr Banks has worked in many banks.". Mogelijk wilt u dat uw analyse onderscheid maakt tussen de persoon "Mr Banks" en de "banks" persoon waarin hij heeft gewerkt. U kunt "banks." ook overwegen als een afzonderlijk token van "banks" omdat het opnemen van een punt de informatie geeft dat het woord aan het einde van een zin staat. |
| Woordverwijdering stoppen | Stopwoorden zijn woorden die moeten worden uitgesloten van de analyse. Bijvoorbeeld: "the", "a"of "it" maken de tekst gemakkelijker leesbaar voor mensen, maar voegen weinig semantische betekenis toe. Door deze woorden uit te sluiten, kan een oplossing voor tekstanalyse de belangrijke woorden beter identificeren. |
| N-gram extractie | Zoeken naar woordgroepen met meerdere termen, zoals "artificial intelligence" of "natural language processing". Eén woordgroep is een unigram, een woordgroep met twee woorden is een bigram, een woordgroep met drie woorden is een trigram, enzovoort. In veel gevallen kan een algoritme voor tekstanalyse een beter beeld krijgen van de tekst door vaak opeenvolgende reeksen woorden als groepen weer te geven. |
| Stemming | Een techniek die wordt gebruikt om woorden samen te voegen door einden als 's', 'ing', 'ed' enzovoort, te verwijderen voordat ze worden geteld; zodat woorden met dezelfde etymologische wortel, zoals "powering", "powered"en "powerful", worden geïnterpreteerd als hetzelfde token ("power"). |
| Lemmatisatie | Een andere benadering voor het herleiden van woorden tot hun basis- of woordenboekvorm (een lemma genoemd). In tegenstelling tot stemming, waardoor woordeinden worden afgesnoept, gebruikt lemmatisering taalkundige regels en woordenlijst om ervoor te zorgen dat de resulterende vorm een geldig woord is (bijvoorbeeld "running": → "run", "global" → "globe"). |
| Pos-taggen (Onderdelen van spraak) | Elk token labelen met zijn grammaticacategorie, zoals zelfstandig naamwoord, werkwoord, bijvoeglijk naamwoord of bijwoord. Deze techniek maakt gebruik van taalkundige regels en vaak statistische modellen om de juiste tag te bepalen op basis van zowel het token zelf als de context in de zin. |