Análisis estadístico de texto.

Completado

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

Después de dividir un corpus de texto en sus tokens constituyentes y prepararlos para su análisis; hay algunas técnicas comunes de análisis estadístico que puede usar para deducir el significado del texto.

Análisis de frecuencia

Quizás la manera más obvia de determinar los temas descritos en un documento es simplemente contar el número de veces que aparece cada token normalizado. La suposición es que los términos que se usan con más frecuencia en el documento pueden ayudar a identificar los temas o temas tratados. En pocas palabras, si puede determinar las palabras más usadas en un documento determinado, a menudo puede hacerse una buena idea de lo que trata el documento.

Por ejemplo, considere el texto siguiente:

AI in modern business delivers transformative benefits by enhancing efficiency, decision-making, and customer experiences. Businesses can leverage AI to automate repetitive tasks, freeing employees to focus on strategic work, while predictive analytics and machine learning models enable data-driven decisions that improve accuracy and speed. AI-powered tools like Copilot streamline workflows across marketing, finance, and operations, reducing costs and boosting productivity. Additionally, intelligent applications personalize customer interactions, driving engagement and loyalty. By embedding AI into core processes, businesses benefit from the ability to innovate faster, adapt to market changes, and maintain a competitive edge in an increasingly digital economy.

Después de tokenizar, normalizar y aplicar la lematización al texto, la frecuencia de cada término se puede contar y tabular; generar los siguientes resultados parciales:

Término Frecuencia
ai 4
business 3
benefit 2
customer 2
decision 2
market 2
ability 1
accuracy 1
... ...

A partir de estos resultados, los términos que se producen con más frecuencia indican que el texto describe la inteligencia artificial y sus ventajas empresariales.

Frecuencia de términos - frecuencia inversa de documento (TF-IDF)

El análisis de frecuencia simple en el que se cuenta el número de apariciones de cada token puede ser una manera eficaz de analizar un solo documento, pero cuando se necesita diferenciar entre varios documentos dentro del mismo corpus, necesita una manera de determinar qué tokens son más relevantes en cada documento individual.

Por ejemplo, considere los dos ejemplos de texto siguientes:

Ejemplo A:

Microsoft Copilot Studio enables declarative AI agent creation using natural language, prompts, and templates. With this declarative approach, an AI agent is configured rather than programmed: makers define intents, actions, and data connections, then publish the agent to channels. Microsoft Copilot Studio simplifies agent orchestration, governance, and lifecycles so an AI agent can be iterated quickly. Using Microsoft Copilot Studio helps modern businesses deploy Microsoft AI agent solutions fast.

Ejemplo B:

Microsoft Foundry enables code‑based AI agent development with SDKs and APIs. Developers write code to implement agent conversations, tool calling, state management, and custom pipelines. In Microsoft Foundry, engineers can use Python or Microsoft C#, integrate Microsoft AI services, and manage CI/CD to deploy the AI agent. This code-first development model supports extensibility and performance while building Microsoft Foundry AI agent applications.

Los tres términos más frecuentes de estos ejemplos se muestran en las tablas siguientes:

Ejemplo A:

Término Frecuencia
agent 6
ai 4
microsoft 4

Ejemplo B:

Término Frecuencia
microsoft 5
agent 4
ai 4

Como puede ver en los resultados, las palabras más comunes de ambos ejemplos son las mismas ("agent", "Microsoft"y "AI"). Esto nos indica que ambos documentos cubren un tema general similar, pero no nos ayuda a discriminar entre los documentos individuales. Examinar los recuentos de términos usados con menos frecuencia puede ayudar, pero puede imaginar fácilmente un análisis de un corpus basado en la documentación de IA de Microsoft, lo que daría lugar a un gran número de términos que son comunes en todos los documentos; dificultando la determinación de los temas específicos que se tratan en cada documento.

Para solucionar este problema, frecuencia de términos: frecuencia inversa del documento (TF-IDF) es una técnica que calcula las puntuaciones en función de la frecuencia con la que aparece una palabra o término en un documento en comparación con su frecuencia más general en toda la colección de documentos. Con esta técnica, se supone un alto grado de relevancia para las palabras que aparecen con frecuencia en un documento determinado, pero con poca frecuencia en una amplia gama de otros documentos. Para calcular TF-IDF para los términos de un documento individual, puede usar el siguiente proceso de tres pasos:

  1. Calcular frecuencia de términos (TF):esto es simplemente cuántas veces aparece una palabra en un documento. Por ejemplo, si la palabra "agent" aparece 6 veces en un documento, tf(agent) = 6.

  2. Calcular frecuencia inversa del documento (IDF): esto comprueba lo común o poco frecuente que hay una palabra en todos los documentos. Si aparece una palabra en cada documento, no es especial. La fórmula utilizada para calcular IDF es idf(t) = log(N / df(t)) (donde N es el número total de documentos y df(t) es el número de documentos que contienen la palabra t)

  3. Combínelos para calcular TF-IDF: Multiplique TF y IDF para obtener la puntuación: tfidf(t, d) = tf(t, d) * log(N / df(t))

Una puntuación de TF-IDF alta indica que una palabra aparece a menudo en un documento, pero rara vez en otros. Una puntuación baja indica que la palabra es común en muchos documentos. En dos ejemplos sobre los agentes de IA, ya que "AI", "Microsoft"y "agent" aparecen en ambas muestras (N = 2, df(t) = 2), su IDF es log(2/2) = 0, por lo que no tienen ningún peso discriminativo en TF-IDF. Los tres primeros resultados de TF-IDF de las muestras son:

Ejemplo A:

Término TF-IDF
copilot 2.0794
studio 2.0794
declarative 1.3863

Ejemplo B:

Término TF-IDF
code 2.0794
develop 2.0794
foundry 2.0794

A partir de estos resultados, es más claro que el ejemplo A trata sobre la creación de agentes declarativos con Copilot Studio, mientras que el ejemplo B trata sobre el desarrollo de agentes basados en código con Microsoft Foundry.

Técnicas de aprendizaje automático de "bag-of-words"

Bag-of-words (bolsa de palabras) es el nombre asignado a una técnica de extracción de características que representa tokens de texto como vector de frecuencias o repeticiones de palabras, ignorando la gramática y el orden de palabras. Esta representación se convierte en la entrada de algoritmos de aprendizaje automático como Naive Bayes, un clasificador probabilístico que aplica el teorema de Bayes para predecir la clase probable de un documento en función de la frecuencia de palabras.

Por ejemplo, puede usar esta técnica para entrenar un modelo de aprendizaje automático que realiza el filtrado de correo no deseado por correo electrónico. Las palabras "miracle cure", "lose weight fast" y "anti-envejecimiento" pueden aparecer con más frecuencia en correos electrónicos de spam sobre productos pseudo-saludables que en correos electrónicos normales, y un modelo entrenado podría marcar los mensajes que contienen estas palabras como posibles correos no deseados.

Puede implementar el análisis de sentimiento mediante el mismo método para clasificar texto por tono emocional. El contenedor de palabras proporciona las características y el modelo usa esas características para calcular las probabilidades y asignar etiquetas de opinión como "positivas" o "negativas".

TextRank

TextRank es un algoritmo basado en grafos no supervisado que modela el texto como una red de nodos conectados. Por ejemplo, cada frase de un documento podría considerarse un nodo y las conexiones (bordes) entre ellas se puntuan en función de la similitud de las palabras que contienen. TextRank se usa normalmente para resumir texto basado en la identificación de un subconjunto de oraciones dentro de un documento que mejor represente su asunto general.

El algoritmo TextRank aplica el mismo principio que el algoritmo PageRank de Google (que clasifica las páginas web basadas en vínculos entre ellos) al texto. La idea clave es que una frase es importante si es similar a muchas otras oraciones importantes. El algoritmo funciona mediante los pasos siguientes:

  1. Crear un grafo: cada oración se convierte en un nodo y los bordes que los conectan se ponderan por similitud (a menudo se miden mediante la superposición de palabras o la similitud coseno entre vectores de oración).

  2. Calcular clasificaciones de forma iterativa: La puntuación de cada nodo se calcula basada en las puntuaciones de los nodos a los que está conectado. La fórmula es: TextRank(Sᵢ) = (1-d) + d * Σ(wⱼᵢ / Σwⱼₖ) * TextRank(Sⱼ) (donde d es un factor de amortiguación, normalmente 0,85, wⱼᵢ es el peso del borde de la oración j a la oración i, y la suma recorre en iteración todas las oraciones conectadas a i).

  3. Extraer las oraciones mejor clasificadas: Una vez alcanzada la convergencia, las oraciones con las puntuaciones más altas se seleccionan para el resumen.

Por ejemplo, considere el siguiente documento sobre la informática en la nube:

Cloud computing provides on-demand access to computing resources. Computing resources include servers, storage, and networking. Azure is Microsoft's cloud computing platform. Organizations use cloud platforms to reduce infrastructure costs. Cloud computing enables scalability and flexibility.

Para generar un resumen de este documento, el proceso TextRank comienza dividiendo este documento en oraciones:

  1. Cloud computing provides on-demand access to computing resources.
  2. Computing resources include servers, storage, and networking.
  3. Azure is Microsoft's cloud computing platform.
  4. Organizations use cloud platforms to reduce infrastructure costs.
  5. Cloud computing enables scalability and flexibility.

A continuación, los bordes se crean entre oraciones con pesos en función de la similitud (superposición de palabras). En este ejemplo, los pesos de borde pueden ser:

  • Oración 1 <-> Oración 2: 0,5 (recursos compartidos "computing resources")
  • Oración 1 <-> Oración 3: 0,6 (recursos compartidos "cloud computing")
  • Oración 1 <-> Oración 4: 0,2 (recursos compartidos "cloud")
  • Oración 1 <-> Oración 5: 0,7 (recursos compartidos "cloud computing")
  • Oración 2 <-> Oración 3: 0.2 (superposición limitada)
  • Oración 2 <-> Oración 4: 0.1 (superposición limitada)
  • Oración 2 <-> Oración 5: 0,1 (recursos compartidos "computing")
  • Oración 3 <-> Oración 4: 0,5 (recursos compartidos "cloud platforms")
  • Oración 3 <-> Oración 5: 0,4 (recursos compartidos "cloud computing")
  • Oración 4 <-> Oración 5: 0.3 (superposición limitada)

Diagrama de nodos de oración conectados.

Después de calcular las puntuaciones de TextRank de forma iterativa usando estos pesos, las oraciones 1, 3 y 5 pueden recibir las puntuaciones más altas porque se conectan bien a otras oraciones a través de la terminología y los conceptos compartidos. Estas oraciones se seleccionarían para formar un resumen conciso: "Cloud computing provides on-demand access to computing resources. Azure is Microsoft's cloud computing platform. Cloud computing enables scalability and flexibility."

Nota:

Generar un resumen de documentos seleccionando las oraciones más relevantes es una forma de resumen extractivo . En este enfoque, no se genera ningún texto nuevo: el resumen consta de un subconjunto del texto original. Los desarrollos más recientes en el modelado semántico también permiten el resumen abstracto , en el que se genera un nuevo lenguaje que resume los temas clave del documento de origen.

TextRank también se puede aplicar en el nivel de palabras para la extracción de palabras clave, donde las palabras (en lugar de oraciones) se convierten en nodos y los bordes representan la repetición conjunta dentro de una ventana fija. Las palabras con clasificación más alta se extraen como términos clave que representan los temas principales del documento.