Tokenización

Completado

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

El primer paso para analizar un cuerpo de texto (denominado corpus) consiste en dividirlo en tokens. Por motivos de simplicidad, puede pensar en cada palabra distinta en el texto como un token. En realidad, los tokens se pueden generar para palabras parciales o combinaciones de palabras y puntuación.

Por ejemplo, considere esta frase de un famoso discurso presidencial estadounidense: "We choose to go to the moon". La frase se puede dividir en los siguientes tokens, con identificadores numéricos:

  1. We
  2. choose
  3. to
  4. go
  5. to
  6. the
  7. moon

Tenga en cuenta que "to" (número de token 3) se usa dos veces en el corpus. La frase "We choose to go to the moon" se puede representar mediante los tokens.

Con cada token asignado un valor discreto, podemos contar fácilmente su frecuencia en el texto y usarlo para determinar los términos más usados; que puede ayudar a identificar el asunto principal del texto.

Hemos usado un ejemplo sencillo en el que los tokens se identifican para cada palabra distinta del texto. Sin embargo, tenga en cuenta las siguientes técnicas de preprocesamiento que podrían aplicarse a la tokenización en función del problema de análisis de texto específico que intenta resolver:

Técnica Descripción
Normalización de texto Antes de generar tokens, puede optar por normalizar el texto quitando la puntuación y cambiando todas las palabras a minúsculas. Para el análisis que se basa exclusivamente en la frecuencia de palabras, este enfoque mejora el rendimiento general. Sin embargo, podría perderse algún significado semántico; por ejemplo, considere la frase "Mr Banks has worked in many banks.". Es posible que desee que su análisis diferencie entre la persona "Mr Banks" y el lugar o entidad "banks" en el que ha trabajado. También podrías considerar "banks." como un token separado de "banks" porque la inclusión de un punto indica que la palabra se encuentra al final de una oración.
Detener eliminación de palabras Las palabras irrelevantes son palabras que se deben excluir del análisis. Por ejemplo, "the", "a"o "it" facilitan la lectura del texto, pero agregan poco significado semántico. Al excluir estas palabras, una solución de análisis de texto podría ser mejor capaz de identificar las palabras importantes.
Extracción de N-gramas Búsqueda de frases de varios términos como "artificial intelligence" o "natural language processing". Una sola frase de palabra es un unigrama, una frase de dos palabras es un bigram, una frase de tres palabras es un trigrama, etc. En muchos casos, teniendo en cuenta las secuencias de palabras que aparecen con frecuencia como grupos, un algoritmo de análisis de texto puede tener mejor sentido del texto.
Lematización Técnica utilizada para consolidar palabras quitando finales como "s", "ing", "ed", etc., antes de contarlas; de modo que las palabras con la misma raíz etológica, como "powering", "powered"y "powerful", se interpretan como el mismo token ("power").
Lematización Otro enfoque para reducir las palabras a su forma base o de diccionario (denominada lema). A diferencia de la lematización, que simplemente corta los finales de palabras, la lematización usa reglas lingüísticas y vocabulario para asegurarse de que la forma resultante es una palabra válida (por ejemplo, "running": → "run", "global""globe").
Etiquetado de categorías gramaticales Etiquetar cada token con su categoría gramatical, como sustantivo, verbo, adjetivo o adverb. Esta técnica usa reglas lingüísticas y a menudo modelos estadísticos para determinar la etiqueta correcta en función del propio token y su contexto dentro de la oración.