Tokenizacja
Uwaga / Notatka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Pierwszym krokiem analizy treści tekstu (nazywanego corpus) jest podzielenie go na tokeny. Ze względu na prostotę można traktować każde odrębne słowo w tekście jako token. W rzeczywistości tokeny mogą być generowane dla częściowych wyrazów lub kombinacji wyrazów i znaków interpunkcyjnych.
Rozważmy na przykład to wyrażenie ze słynnego przemówienia prezydenckiego w USA: "We choose to go to the moon". Frazę można podzielić na następujące tokeny z identyfikatorami liczbowymi:
Wechoosetogotothemoon
Zwróć uwagę, że "to" (numer tokenu 3) jest używany dwa razy w korpusie. Fraza "We choose to go to the moon" może być reprezentowana przez tokeny.
W przypadku każdego tokenu przypisanej wartości dyskretnej można łatwo zliczyć ich częstotliwość w tekście i użyć go do określenia najczęściej używanych terminów; które mogą pomóc w zidentyfikowaniu głównego tematu tekstu.
Użyliśmy prostego przykładu, w którym tokeny są identyfikowane dla każdego odrębnego słowa w tekście. Należy jednak wziąć pod uwagę następujące techniki przetwarzania wstępnego, które mogą mieć zastosowanie do tokenizacji w zależności od konkretnego problemu analizy tekstu, który próbujesz rozwiązać:
| Technika | Opis |
|---|---|
| Normalizacja tekstu | Przed wygenerowaniem tokenów można wybrać normalizację tekstu przez usunięcie interpunkcji i zmianę wszystkich wyrazów na małe litery. W przypadku analizy, która opiera się wyłącznie na częstotliwości słów, to podejście zwiększa ogólną wydajność. Można jednak utracić pewne znaczenie semantyczne — na przykład należy wziąć pod uwagę zdanie "Mr Banks has worked in many banks.". Możesz chcieć, aby analiza rozróżniała osobę "Mr Banks" i "banks" osobę, w której pracował. Możesz również rozważyć traktowanie "banks." jako oddzielnego tokenu względem "banks", ponieważ kropka dostarcza informacji, że słowo znajduje się na końcu zdania. |
| Zatrzymaj usuwanie wyrazów | Słowa stop to wyrazy, które należy wykluczyć z analizy. Na przykład , "the""a"lub "it" ułatwią użytkownikom czytanie tekstu, ale dodają niewielkie znaczenie semantyczne. Wykluczając te słowa, rozwiązanie do analizy tekstu może być lepsze w stanie zidentyfikować ważne słowa. |
| Wyodrębnianie N-gramów | Znajdowanie fraz wieloterminowych, takich jak "artificial intelligence" lub "natural language processing". Pojedynczy wyraz jest unigramem, dwu wyrazowa fraza jest bigramem, trzywyrazowa fraza jest trigramem i tak dalej. W wielu przypadkach, biorąc pod uwagę często pojawiające się sekwencje słów jako grupy, algorytm analizy tekstu może lepiej zrozumieć tekst. |
| Stemming (sprowadzenie do rdzenia słowa) | Technika używana do konsolidacji słów przez usuwanie zakończeń, takich jak "s", "ing", "ed", itd., przed policzeniem ich; tak, aby wyrazy z tym samym rdzeniem etymologicznym, takim jak "powering", "powered", i "powerful", były interpretowane jako ten sam token ("power"). |
| Lemmatyzacja | Innym podejściem jest sprowadzanie wyrazów do ich formy podstawowej lub słownikowej, co nazywamy lemmą. W przeciwieństwie do stemmingu, które po prostu obcina zakończenia wyrazów, lemmatyzacja używa reguł językowych i słownictwa, aby upewnić się, że wynikowa forma jest prawidłowym słowem (na przykład "running": "run", "global" → "globe"). |
| Tagowanie części mowy (POS) | Etykietowanie każdego tokenu przy użyciu kategorii gramatycznej, takiej jak rzeczownik, czasownik, przymiotnik lub przysłówek. Ta technika używa reguł językowych i często modeli statystycznych w celu określenia poprawnego tagu na podstawie samego tokenu i jego kontekstu w zdaniu. |