Tokenização
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
A primeira etapa na análise de um corpo de texto (conhecido como corpus) é dividi-lo em tokens. Para simplificar, você pode pensar em cada palavra distinta no texto como um token. Na realidade, os tokens podem ser gerados para palavras parciais ou combinações de palavras e pontuação.
Por exemplo, considere esta frase de um famoso discurso presidencial dos EUA: "We choose to go to the moon". A frase pode ser dividida nos seguintes tokens, com identificadores numéricos:
Wechoosetogotothemoon
Observe que "to" (número de token 3) é usado duas vezes no corpus. A frase "We choose to go to the moon" pode ser representada pelos tokens.
Com cada token atribuído a um valor discreto, podemos contar facilmente sua frequência no texto e usá-lo para determinar os termos mais usados; que pode ajudar a identificar o assunto principal do texto.
Usamos um exemplo simples no qual os tokens são identificados para cada palavra distinta no texto. No entanto, considere as seguintes técnicas de pré-processamento que podem se aplicar à tokenização, dependendo do problema específico de análise de texto que você está tentando resolver:
| Técnica | Descrição |
|---|---|
| Normalização de texto | Antes de gerar tokens, você pode optar por normalizar o texto removendo a pontuação e alterando todas as palavras para maiúsculas e minúsculas. Para análise que depende apenas da frequência de palavras, essa abordagem melhora o desempenho geral. No entanto, algum significado semântico pode ser perdido - por exemplo, considere a frase "Mr Banks has worked in many banks.". Talvez você queira que sua análise diferencie entre a pessoa "Mr Banks" e a "banks" em que ele trabalhou. Talvez você também queira considerar "banks." como um token separado de "banks", porque a inclusão de um ponto indica que a palavra aparece no final de uma frase. |
| Remoção de palavras irrelevantes | Palavras irrelevantes são palavras que devem ser excluídas da análise. Por exemplo, "the", "a"ou "it" tornar o texto mais fácil para as pessoas lerem, mas adicionarem pouco significado semântico. Excluindo essas palavras, uma solução de análise de texto pode ser mais capaz de identificar as palavras importantes. |
| Extração de N-grama | Localizando frases de vários termos, como "artificial intelligence" ou "natural language processing". Uma única frase de palavra é um unigrama, uma frase de duas palavras é um bigram, uma frase de três palavras é um trigrama, e assim por diante. Em muitos casos, considerando a exibição frequente de sequências de palavras como grupos, um algoritmo de análise de texto pode fazer melhor sentido do texto. |
| Lematização | Uma técnica usada para consolidar palavras retirando terminações como "s", "ing", "ed" e assim por diante, antes de contá-las; para que as palavras com a mesma raiz etimológica, como "powering", "powered" e "powerful", sejam interpretadas como sendo o mesmo token ("power"). |
| Lematização | Outra abordagem para reduzir palavras à sua forma básica ou de dicionário (conhecida como lema). Diferente da derivação, que simplesmente corta terminações de palavras, a lematização usa regras linguísticas e vocabulário para garantir que a forma resultante seja uma palavra válida (por exemplo, "running": → "run", "global" → "globe"). |
| Marcação de partes de fala (POS) | Rotulando cada token com sua categoria gramatical, como substantivo, verbo, adjetivo ou advérbio. Essa técnica usa regras linguísticas e, muitas vezes, modelos estatísticos para determinar a marca correta com base no próprio token e em seu contexto dentro da frase. |