Tokenizacja

Zakończone

Uwaga / Notatka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Pierwszym krokiem analizy treści tekstu (nazywanego corpus) jest podzielenie go na tokeny. Ze względu na prostotę można traktować każde odrębne słowo w tekście jako token. W rzeczywistości tokeny mogą być generowane dla częściowych wyrazów lub kombinacji wyrazów i znaków interpunkcyjnych.

Rozważmy na przykład to wyrażenie ze słynnego przemówienia prezydenckiego w USA: "We choose to go to the moon". Frazę można podzielić na następujące tokeny z identyfikatorami liczbowymi:

  1. We
  2. choose
  3. to
  4. go
  5. to
  6. the
  7. moon

Zwróć uwagę, że "to" (numer tokenu 3) jest używany dwa razy w korpusie. Fraza "We choose to go to the moon" może być reprezentowana przez tokeny.

W przypadku każdego tokenu przypisanej wartości dyskretnej można łatwo zliczyć ich częstotliwość w tekście i użyć go do określenia najczęściej używanych terminów; które mogą pomóc w zidentyfikowaniu głównego tematu tekstu.

Użyliśmy prostego przykładu, w którym tokeny są identyfikowane dla każdego odrębnego słowa w tekście. Należy jednak wziąć pod uwagę następujące techniki przetwarzania wstępnego, które mogą mieć zastosowanie do tokenizacji w zależności od konkretnego problemu analizy tekstu, który próbujesz rozwiązać:

Technika Opis
Normalizacja tekstu Przed wygenerowaniem tokenów można wybrać normalizację tekstu przez usunięcie interpunkcji i zmianę wszystkich wyrazów na małe litery. W przypadku analizy, która opiera się wyłącznie na częstotliwości słów, to podejście zwiększa ogólną wydajność. Można jednak utracić pewne znaczenie semantyczne — na przykład należy wziąć pod uwagę zdanie "Mr Banks has worked in many banks.". Możesz chcieć, aby analiza rozróżniała osobę "Mr Banks" i "banks" osobę, w której pracował. Możesz również rozważyć traktowanie "banks." jako oddzielnego tokenu względem "banks", ponieważ kropka dostarcza informacji, że słowo znajduje się na końcu zdania.
Zatrzymaj usuwanie wyrazów Słowa stop to wyrazy, które należy wykluczyć z analizy. Na przykład , "the""a"lub "it" ułatwią użytkownikom czytanie tekstu, ale dodają niewielkie znaczenie semantyczne. Wykluczając te słowa, rozwiązanie do analizy tekstu może być lepsze w stanie zidentyfikować ważne słowa.
Wyodrębnianie N-gramów Znajdowanie fraz wieloterminowych, takich jak "artificial intelligence" lub "natural language processing". Pojedynczy wyraz jest unigramem, dwu wyrazowa fraza jest bigramem, trzywyrazowa fraza jest trigramem i tak dalej. W wielu przypadkach, biorąc pod uwagę często pojawiające się sekwencje słów jako grupy, algorytm analizy tekstu może lepiej zrozumieć tekst.
Stemming (sprowadzenie do rdzenia słowa) Technika używana do konsolidacji słów przez usuwanie zakończeń, takich jak "s", "ing", "ed", itd., przed policzeniem ich; tak, aby wyrazy z tym samym rdzeniem etymologicznym, takim jak "powering", "powered", i "powerful", były interpretowane jako ten sam token ("power").
Lemmatyzacja Innym podejściem jest sprowadzanie wyrazów do ich formy podstawowej lub słownikowej, co nazywamy lemmą. W przeciwieństwie do stemmingu, które po prostu obcina zakończenia wyrazów, lemmatyzacja używa reguł językowych i słownictwa, aby upewnić się, że wynikowa forma jest prawidłowym słowem (na przykład "running": "run", "global""globe").
Tagowanie części mowy (POS) Etykietowanie każdego tokenu przy użyciu kategorii gramatycznej, takiej jak rzeczownik, czasownik, przymiotnik lub przysłówek. Ta technika używa reguł językowych i często modeli statystycznych w celu określenia poprawnego tagu na podstawie samego tokenu i jego kontekstu w zdaniu.