Tokenização

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

O primeiro passo na análise de um corpo de texto (referido como corpus) é dividi-lo em fichas. Para simplificar, pode pensar em cada palavra distinta do texto como um símbolo. Na realidade, podem ser gerados tokens para palavras parciais ou combinações de palavras e pontuação.

Por exemplo, considere esta frase de um famoso discurso presidencial dos EUA: "We choose to go to the moon". A frase pode ser dividida nos seguintes tokens, com identificadores numéricos:

  1. We
  2. choose
  3. to
  4. go
  5. to
  6. the
  7. moon

Observe que "to" (token número 3) é usado duas vezes no corpus. A frase "We choose to go to the moon" pode ser representada pelos tokens.

Com cada token atribuído a um valor discreto, podemos facilmente contar a sua frequência no texto e usá-la para determinar os termos mais comuns; O que pode ajudar a identificar o tema principal do texto.

Usamos um exemplo simples em que os tokens são identificados para cada palavra distinta no texto. No entanto, considere as seguintes técnicas de pré-processamento que podem aplicar-se à tokenização dependendo do problema específico de análise de texto que pretende resolver:

Técnica Descrição
Normalização de texto Antes de gerar tokens, pode optar por normalizar o texto removendo a pontuação e mudando todas as palavras para minúsculas. Para análises que dependem exclusivamente da frequência das palavras, essa abordagem melhora o desempenho geral. No entanto, algum significado semântico pode perder-se – por exemplo, considere a frase "Mr Banks has worked in many banks.". Pode querer que a sua análise diferencie entre a pessoa "Mr Banks" e o lugar "banks" onde trabalhou. Pode também querer considerar "banks." como um token separado de "banks" porque a inclusão de um ponto fornece a informação de que a palavra aparece no final de uma frase
Parar remoção de palavras Stop words são palavras que devem ser excluídas da análise. Por exemplo, "the", "a"ou "it" tornar o texto mais fácil para as pessoas lerem, mas acrescentam pouco significado semântico. Ao excluir estas palavras, uma solução de análise de texto pode conseguir identificar melhor as palavras importantes.
Extração de N-gramas Encontrar frases de múltiplos termos como "artificial intelligence" ou "natural language processing". Uma frase de uma palavra é um unigrama, uma frase de duas palavras é um bigrama, uma frase de três palavras é um trigrama, e assim sucessivamente. Em muitos casos, ao considerar sequências de palavras que aparecem frequentemente como grupos, um algoritmo de análise de texto pode compreender melhor o texto.
Radicalização Uma técnica usada para consolidar palavras removendo terminações como "s", "ing", "ed", e assim sucessivamente, antes de as contar; de modo que palavras com a mesma raiz etimológica, como "powering", "powered", e "powerful", são interpretadas como sendo o mesmo token ("power").
Lematização Outra abordagem para reduzir as palavras à sua forma básica ou forma de dicionário (chamada lema). Ao contrário do stemming, que simplesmente corta as terminações das palavras, a lematização usa regras linguísticas e vocabulário para garantir que a forma resultante é uma palavra válida (por exemplo, "running": → "run", "global""globe").
Etiquetagem por classes gramaticais (POS) Rotulando cada token com a sua categoria gramatical, como substantivo, verbo, adjetivo ou advérbio. Esta técnica utiliza regras linguísticas e frequentemente modelos estatísticos para determinar a etiqueta correta com base tanto no próprio token como no seu contexto dentro da frase.