Tokenização

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

A primeira etapa na análise de um corpo de texto (conhecido como corpus) é dividi-lo em tokens. Para simplificar, você pode pensar em cada palavra distinta no texto como um token. Na realidade, os tokens podem ser gerados para palavras parciais ou combinações de palavras e pontuação.

Por exemplo, considere esta frase de um famoso discurso presidencial dos EUA: "We choose to go to the moon". A frase pode ser dividida nos seguintes tokens, com identificadores numéricos:

  1. We
  2. choose
  3. to
  4. go
  5. to
  6. the
  7. moon

Observe que "to" (número de token 3) é usado duas vezes no corpus. A frase "We choose to go to the moon" pode ser representada pelos tokens.

Com cada token atribuído a um valor discreto, podemos contar facilmente sua frequência no texto e usá-lo para determinar os termos mais usados; que pode ajudar a identificar o assunto principal do texto.

Usamos um exemplo simples no qual os tokens são identificados para cada palavra distinta no texto. No entanto, considere as seguintes técnicas de pré-processamento que podem se aplicar à tokenização, dependendo do problema específico de análise de texto que você está tentando resolver:

Técnica Descrição
Normalização de texto Antes de gerar tokens, você pode optar por normalizar o texto removendo a pontuação e alterando todas as palavras para maiúsculas e minúsculas. Para análise que depende apenas da frequência de palavras, essa abordagem melhora o desempenho geral. No entanto, algum significado semântico pode ser perdido - por exemplo, considere a frase "Mr Banks has worked in many banks.". Talvez você queira que sua análise diferencie entre a pessoa "Mr Banks" e a "banks" em que ele trabalhou. Talvez você também queira considerar "banks." como um token separado de "banks", porque a inclusão de um ponto indica que a palavra aparece no final de uma frase.
Remoção de palavras irrelevantes Palavras irrelevantes são palavras que devem ser excluídas da análise. Por exemplo, "the", "a"ou "it" tornar o texto mais fácil para as pessoas lerem, mas adicionarem pouco significado semântico. Excluindo essas palavras, uma solução de análise de texto pode ser mais capaz de identificar as palavras importantes.
Extração de N-grama Localizando frases de vários termos, como "artificial intelligence" ou "natural language processing". Uma única frase de palavra é um unigrama, uma frase de duas palavras é um bigram, uma frase de três palavras é um trigrama, e assim por diante. Em muitos casos, considerando a exibição frequente de sequências de palavras como grupos, um algoritmo de análise de texto pode fazer melhor sentido do texto.
Lematização Uma técnica usada para consolidar palavras retirando terminações como "s", "ing", "ed" e assim por diante, antes de contá-las; para que as palavras com a mesma raiz etimológica, como "powering", "powered" e "powerful", sejam interpretadas como sendo o mesmo token ("power").
Lematização Outra abordagem para reduzir palavras à sua forma básica ou de dicionário (conhecida como lema). Diferente da derivação, que simplesmente corta terminações de palavras, a lematização usa regras linguísticas e vocabulário para garantir que a forma resultante seja uma palavra válida (por exemplo, "running": → "run", "global""globe").
Marcação de partes de fala (POS) Rotulando cada token com sua categoria gramatical, como substantivo, verbo, adjetivo ou advérbio. Essa técnica usa regras linguísticas e, muitas vezes, modelos estatísticos para determinar a marca correta com base no próprio token e em seu contexto dentro da frase.