Tokenização
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
O primeiro passo na análise de um corpo de texto (referido como corpus) é dividi-lo em fichas. Para simplificar, pode pensar em cada palavra distinta do texto como um símbolo. Na realidade, podem ser gerados tokens para palavras parciais ou combinações de palavras e pontuação.
Por exemplo, considere esta frase de um famoso discurso presidencial dos EUA: "We choose to go to the moon". A frase pode ser dividida nos seguintes tokens, com identificadores numéricos:
Wechoosetogotothemoon
Observe que "to" (token número 3) é usado duas vezes no corpus. A frase "We choose to go to the moon" pode ser representada pelos tokens.
Com cada token atribuído a um valor discreto, podemos facilmente contar a sua frequência no texto e usá-la para determinar os termos mais comuns; O que pode ajudar a identificar o tema principal do texto.
Usamos um exemplo simples em que os tokens são identificados para cada palavra distinta no texto. No entanto, considere as seguintes técnicas de pré-processamento que podem aplicar-se à tokenização dependendo do problema específico de análise de texto que pretende resolver:
| Técnica | Descrição |
|---|---|
| Normalização de texto | Antes de gerar tokens, pode optar por normalizar o texto removendo a pontuação e mudando todas as palavras para minúsculas. Para análises que dependem exclusivamente da frequência das palavras, essa abordagem melhora o desempenho geral. No entanto, algum significado semântico pode perder-se – por exemplo, considere a frase "Mr Banks has worked in many banks.". Pode querer que a sua análise diferencie entre a pessoa "Mr Banks" e o lugar "banks" onde trabalhou. Pode também querer considerar "banks." como um token separado de "banks" porque a inclusão de um ponto fornece a informação de que a palavra aparece no final de uma frase |
| Parar remoção de palavras | Stop words são palavras que devem ser excluídas da análise. Por exemplo, "the", "a"ou "it" tornar o texto mais fácil para as pessoas lerem, mas acrescentam pouco significado semântico. Ao excluir estas palavras, uma solução de análise de texto pode conseguir identificar melhor as palavras importantes. |
| Extração de N-gramas | Encontrar frases de múltiplos termos como "artificial intelligence" ou "natural language processing". Uma frase de uma palavra é um unigrama, uma frase de duas palavras é um bigrama, uma frase de três palavras é um trigrama, e assim sucessivamente. Em muitos casos, ao considerar sequências de palavras que aparecem frequentemente como grupos, um algoritmo de análise de texto pode compreender melhor o texto. |
| Radicalização | Uma técnica usada para consolidar palavras removendo terminações como "s", "ing", "ed", e assim sucessivamente, antes de as contar; de modo que palavras com a mesma raiz etimológica, como "powering", "powered", e "powerful", são interpretadas como sendo o mesmo token ("power"). |
| Lematização | Outra abordagem para reduzir as palavras à sua forma básica ou forma de dicionário (chamada lema). Ao contrário do stemming, que simplesmente corta as terminações das palavras, a lematização usa regras linguísticas e vocabulário para garantir que a forma resultante é uma palavra válida (por exemplo, "running": → "run", "global" → "globe"). |
| Etiquetagem por classes gramaticais (POS) | Rotulando cada token com a sua categoria gramatical, como substantivo, verbo, adjetivo ou advérbio. Esta técnica utiliza regras linguísticas e frequentemente modelos estatísticos para determinar a etiqueta correta com base tanto no próprio token como no seu contexto dentro da frase. |