Analyse de texte statistique.
Remarque
Pour plus d’informations, consultez l’onglet Texte et images !
Avoir décomposé un corpus de texte en ses jetons constituants et les a préparés pour l’analyse ; il existe certaines techniques d’analyse statistique courantes que vous pouvez utiliser pour déduire la signification du texte.
Analyse de la fréquence
La façon la plus évidente de déterminer les sujets abordés dans un document consiste peut-être à compter simplement le nombre de fois où chaque jeton normalisé apparaît. L’hypothèse est que les termes utilisés plus fréquemment dans le document peuvent aider à identifier les sujets ou thèmes abordés. Autrement dit, si vous pouvez déterminer les mots les plus couramment utilisés dans un document donné, vous pouvez souvent avoir une bonne idée de ce qu’est le document.
Par exemple, considérez le texte suivant :
AI in modern business delivers transformative benefits by enhancing efficiency, decision-making, and customer experiences. Businesses can leverage AI to automate repetitive tasks, freeing employees to focus on strategic work, while predictive analytics and machine learning models enable data-driven decisions that improve accuracy and speed. AI-powered tools like Copilot streamline workflows across marketing, finance, and operations, reducing costs and boosting productivity. Additionally, intelligent applications personalize customer interactions, driving engagement and loyalty. By embedding AI into core processes, businesses benefit from the ability to innovate faster, adapt to market changes, and maintain a competitive edge in an increasingly digital economy.
Après la tokenisation, la normalisation et l’application de la lemmatisation au texte, la fréquence de chaque terme peut être comptée et tabulée ; produisant les résultats partiels suivants :
| Terme | Fréquence |
|---|---|
ai |
4 |
business |
3 |
benefit |
2 |
customer |
2 |
decision |
2 |
market |
2 |
ability |
1 |
accuracy |
1 |
| ... | ... |
À partir de ces résultats, les termes les plus fréquents indiquent que le texte traite de l’IA et de ses avantages métier.
Fréquence des termes : fréquence inverse de document (TF-IDF)
Une analyse de fréquence simple dans laquelle vous comptez le nombre d’occurrences de chaque jeton peut être un moyen efficace d’analyser un document unique, mais lorsque vous devez différencier plusieurs documents au sein du même corpus, vous avez besoin d’un moyen de déterminer quels jetons sont les plus pertinents dans chaque document individuel.
Par exemple, tenez compte des deux exemples de texte suivants :
Exemple A :
Microsoft Copilot Studio enables declarative AI agent creation using natural language, prompts, and templates. With this declarative approach, an AI agent is configured rather than programmed: makers define intents, actions, and data connections, then publish the agent to channels. Microsoft Copilot Studio simplifies agent orchestration, governance, and lifecycles so an AI agent can be iterated quickly. Using Microsoft Copilot Studio helps modern businesses deploy Microsoft AI agent solutions fast.
Exemple B :
Microsoft Foundry enables code‑based AI agent development with SDKs and APIs. Developers write code to implement agent conversations, tool calling, state management, and custom pipelines. In Microsoft Foundry, engineers can use Python or Microsoft C#, integrate Microsoft AI services, and manage CI/CD to deploy the AI agent. This code-first development model supports extensibility and performance while building Microsoft Foundry AI agent applications.
Les trois premiers termes les plus fréquents de ces exemples sont présentés dans les tableaux suivants :
Exemple A :
| Terme | Fréquence |
|---|---|
agent |
6 |
ai |
4 |
microsoft |
4 |
Exemple B :
| Terme | Fréquence |
|---|---|
microsoft |
5 |
agent |
4 |
ai |
4 |
Comme vous pouvez le voir à partir des résultats, les mots les plus courants dans les deux exemples sont les mêmes ("agent", "Microsoft"et "AI"). Cela nous indique que les deux documents couvrent un thème global similaire, mais ne nous aident pas à faire la distinction entre les documents individuels. L’examen des nombres de termes moins fréquemment utilisés peut vous aider, mais vous pouvez facilement imaginer une analyse d’un corpus basé sur la documentation de l’IA de Microsoft, ce qui entraînerait un grand nombre de termes communs à tous les documents ; il est difficile de déterminer les rubriques spécifiques abordées dans chaque document.
Pour résoudre ce problème, la fréquence des termes - Fréquence de document inverse (TF-IDF) est une technique qui calcule les scores en fonction de la fréquence à laquelle un mot ou un terme apparaît dans un document par rapport à sa fréquence plus générale dans l’ensemble de la collection de documents. À l’aide de cette technique, un degré élevé de pertinence est supposé pour les mots qui apparaissent fréquemment dans un document particulier, mais relativement peu souvent dans un large éventail d’autres documents. Pour calculer TF-IDF pour les termes d’un document individuel, vous pouvez utiliser le processus en trois étapes suivant :
Calculer la fréquence des termes (TF) : il s’agit simplement du nombre de fois où un mot apparaît dans un document. Par exemple, si le mot
"agent"apparaît 6 fois dans un document, puistf(agent) = 6.Calculer la fréquence inverse des documents (IDF) : vérifie la fréquence courante ou rare d’un mot dans tous les documents. Si un mot apparaît dans chaque document, il n’est pas spécial. La formule utilisée pour calculer IDF est
idf(t) = log(N / df(t))(oùNest le nombre total de documents etdf(t)le nombre de documents qui contiennent le mott)Combinez-les pour calculer TF-IDF : multipliez TF et IDF pour obtenir le score :
tfidf(t, d) = tf(t, d) * log(N / df(t))
Un score de TF-IDF élevé indique qu’un mot apparaît souvent dans un document, mais rarement dans d’autres. Un score faible indique que le mot est courant dans de nombreux documents. Dans deux échantillons sur les agents d’IA, car "AI", "Microsoft"et "agent" apparaissent dans les deux échantillons (N = 2, df(t) = 2), leur IDF est log(2/2) = 0, de sorte qu’ils n’ont pas de poids discriminatif dans TF-IDF. Les trois premiers résultats TF-IDF pour les exemples sont les suivants :
Exemple A :
| Terme | TF-IDF |
|---|---|
copilot |
2.0794 |
studio |
2.0794 |
declarative |
1.3863 |
Exemple B :
| Terme | TF-IDF |
|---|---|
code |
2.0794 |
develop |
2.0794 |
foundry |
2.0794 |
À partir de ces résultats, il est plus clair que l’exemple A concerne la création d’agents déclaratifs avec Copilot Studio, tandis que l’exemple B concerne le développement d’agents basés sur du code avec Microsoft Foundry.
Techniques de machine learning « bag-of-words » (sac de mots)
Bag-of-words est le nom donné à une technique d'extraction de caractéristiques qui représente les tokens de texte sous la forme d'un vecteur de fréquences ou d'occurrences de mots, en ignorant la grammaire et l'ordre des mots. Cette représentation devient l’entrée pour les algorithmes d’apprentissage automatique comme Naive Bayes, un classifieur probabiliste qui applique le théorème de Bayes pour prédire la classe probable d’un document en fonction de la fréquence des mots.
Par exemple, vous pouvez utiliser cette technique pour entraîner un modèle Machine Learning qui effectue le filtrage du courrier indésirable par e-mail. Les mots "miracle cure", "lose weight fast"et « anti-vieillissement » peuvent apparaître plus fréquemment dans les courriers indésirables sur les produits de santé douteux que vos e-mails réguliers, et un modèle formé peut marquer des messages contenant ces mots comme courrier indésirable potentiel.
Vous pouvez implémenter l’analyse des sentiments à l’aide de la même méthode pour classer le texte par tonalité émotionnelle. Le sac de mots fournit les fonctionnalités et le modèle utilise ces fonctionnalités pour estimer les probabilités et affecter des étiquettes de sentiment comme « positif » ou « négatif ».
TextRank
TextRank est un algorithme basé sur un graphique non supervisé qui modélise le texte en tant que réseau de nœuds connectés. Par exemple, chaque phrase d’un document peut être considérée comme un nœud, et les connexions (arêtes) entre elles sont notées en fonction de la similarité des mots qu’ils contiennent. TextRank est couramment utilisé pour résumer le texte en fonction de l’identification d’un sous-ensemble de phrases au sein d’un document qui représente le mieux son sujet global.
L’algorithme TextRank applique le même principe que l’algorithme PageRank de Google (qui classe les pages web en fonction des liens entre eux) au texte. L’idée clé est qu’une phrase est importante si elle est similaire à de nombreuses autres phrases importantes. L’algorithme fonctionne en procédant comme suit :
Créer un graphique : chaque phrase devient un nœud et les arêtes qui les connectent sont pondérées par similarité (souvent mesurées à l’aide de chevauchements de mots ou de similarité cosinus entre les vecteurs de phrase).
Calculer les rangs de manière itérative : le score de chaque nœud est calculé en fonction des scores des nœuds connectés. La formule est :
TextRank(Sᵢ) = (1-d) + d * Σ(wⱼᵢ / Σwⱼₖ) * TextRank(Sⱼ)(oùdest un facteur d’amortissement, généralement 0,85,wⱼᵢest le poids de l'arête depuis la phrasejjusqu'à la phrasei, et la somme itère sur toutes les phrases connectées ài).Extrayez les phrases les plus classées : après convergence, les phrases avec les scores les plus élevés sont sélectionnées comme résumé.
Par exemple, considérez le document suivant sur le cloud computing :
Cloud computing provides on-demand access to computing resources. Computing resources include servers, storage, and networking. Azure is Microsoft's cloud computing platform. Organizations use cloud platforms to reduce infrastructure costs. Cloud computing enables scalability and flexibility.
Pour générer un résumé de ce document, le processus TextRank commence par fractionner ce document en phrases :
Cloud computing provides on-demand access to computing resources.Computing resources include servers, storage, and networking.Azure is Microsoft's cloud computing platform.Organizations use cloud platforms to reduce infrastructure costs.Cloud computing enables scalability and flexibility.
Ensuite, les arêtes sont créées entre les phrases avec des pondérations basées sur la similarité (chevauchement de mots). Pour cet exemple, les pondérations de bord peuvent être les suivantes :
- Phrase 1 <-> Phrase 2 : 0,5 (partage
"computing resources") - Phrase 1 <-> Phrase 3 : 0,6 (partage
"cloud computing") - Phrase 1 <-> Phrase 4 : 0,2 (partage
"cloud") - Phrase 1 <-> Phrase 5 : 0,7 (actions
"cloud computing") - Phrase 2 <-> Phrase 3 : 0,2 (chevauchement limité)
- Phrase 2 <-> Phrase 4 : 0,1 (chevauchement limité)
- Phrase 2 <-> Phrase 5 : 0,1 (partage
"computing") - Phrase 3 <-> Phrase 4 : 0,5 (partage
"cloud platforms") - Phrase 3 <-> Phrase 5 : 0,4 (partage
"cloud computing") - Phrase 4 <-> Phrase 5 : 0,3 (chevauchement limité)
Après avoir calculé les scores TextRank de manière itérative à l’aide de ces pondérations, les phrases 1, 3 et 5 peuvent recevoir les scores les plus élevés, car ils se connectent bien à d’autres phrases par le biais de la terminologie et des concepts partagés. Ces phrases sont sélectionnées pour former un résumé concis : "Cloud computing provides on-demand access to computing resources. Azure is Microsoft's cloud computing platform. Cloud computing enables scalability and flexibility."
Remarque
La génération d’un résumé de document en sélectionnant les phrases les plus pertinentes est une forme de résumé extractif . Dans cette approche, aucun nouveau texte n’est généré : le résumé se compose d’un sous-ensemble du texte d’origine. Les développements plus récents dans la modélisation sémantique permettent également une synthèse abstraite , dans laquelle de nouveaux langages récapitulent les thèmes clés du document source.
TextRank peut également être appliqué au niveau du mot pour l’extraction de mots clés, où les mots (plutôt que les phrases) deviennent des nœuds, et les arêtes représentent la co-occurrence dans une fenêtre fixe. Les mots les plus classés sont extraits en tant que termes clés représentant les rubriques principales du document.