Statistische Textanalyse.

3 Minuten

Hinweis

Weitere Details finden Sie auf der Registerkarte "Text und Bilder ".

Nachdem ein Textkorpus in seine Bestandteiltoken zerlegt und zur Analyse vorbereitet wurde; Es gibt einige gängige statistische Analysetechniken, mit denen Sie die Bedeutung aus dem Text ableiten können.

Häufigkeitsanalyse

Vielleicht ist die offensichtlichste Möglichkeit, die in einem Dokument behandelten Themen zu ermitteln, einfach die Anzahl der Vorkommen jedes normalisierten Tokens zu zählen. Die Annahme besteht darin, dass Begriffe, die häufiger im Dokument verwendet werden, dabei helfen können, die behandelten Themen oder Themen zu identifizieren. Wenn Sie einfach die am häufigsten verwendeten Wörter in einem bestimmten Dokument ermitteln können, können Sie häufig eine gute Vorstellung davon erhalten, worum es bei dem Dokument geht.

Betrachten Sie z. B. den folgenden Text:

AI in modern business delivers transformative benefits by enhancing efficiency, decision-making, and customer experiences. Businesses can leverage AI to automate repetitive tasks, freeing employees to focus on strategic work, while predictive analytics and machine learning models enable data-driven decisions that improve accuracy and speed. AI-powered tools like Copilot streamline workflows across marketing, finance, and operations, reducing costs and boosting productivity. Additionally, intelligent applications personalize customer interactions, driving engagement and loyalty. By embedding AI into core processes, businesses benefit from the ability to innovate faster, adapt to market changes, and maintain a competitive edge in an increasingly digital economy.

Nach der Tokenisierung, Normalisierung und Anwendung von Lemmatisierung auf den Text kann die Häufigkeit der einzelnen Begriffe gezählt und tabuliert werden; Die folgenden Teilergebnisse werden erstellt:

Begriff	Frequenz
`ai`	4
`business`	3
`benefit`	2
`customer`	2
`decision`	2
`market`	2
`ability`	1
`accuracy`	1
...	...

Aus diesen Ergebnissen deuten die am häufigsten auftretenden Begriffe darauf hin, dass der Text KI und seine geschäftlichen Vorteile erläutert.

Term Frequency - Inverse Document Frequency (TF-IDF)

Einfache Häufigkeitsanalyse, in der Sie die Anzahl der Vorkommen jedes Tokens zählen, kann eine effektive Möglichkeit sein, ein einzelnes Dokument zu analysieren. Wenn Sie jedoch mehrere Dokumente innerhalb desselben Korpus unterscheiden müssen, benötigen Sie eine Möglichkeit, um zu bestimmen, welche Token in jedem einzelnen Dokument am relevantesten sind.

Betrachten Sie beispielsweise die folgenden beiden Textbeispiele:

Beispiel A:

Microsoft Copilot Studio enables declarative AI agent creation using natural language, prompts, and templates. With this declarative approach, an AI agent is configured rather than programmed: makers define intents, actions, and data connections, then publish the agent to channels. Microsoft Copilot Studio simplifies agent orchestration, governance, and lifecycles so an AI agent can be iterated quickly. Using Microsoft Copilot Studio helps modern businesses deploy Microsoft AI agent solutions fast.

Beispiel B:

Microsoft Foundry enables code‑based AI agent development with SDKs and APIs. Developers write code to implement agent conversations, tool calling, state management, and custom pipelines. In Microsoft Foundry, engineers can use Python or Microsoft C#, integrate Microsoft AI services, and manage CI/CD to deploy the AI agent. This code-first development model supports extensibility and performance while building Microsoft Foundry AI agent applications.

Die drei häufigsten Begriffe in diesen Beispielen sind in den folgenden Tabellen dargestellt:

Beispiel A:

Begriff	Frequenz
`agent`	6
`ai`	4
`microsoft`	4

Beispiel B:

Begriff	Frequenz
`microsoft`	5
`agent`	4
`ai`	4

Wie Sie aus den Ergebnissen sehen können, sind die häufigsten Wörter in beiden Beispielen gleich ("agent", "Microsoft"und "AI"). Dies teilt uns mit, dass beide Dokumente ein ähnliches allgemeines Design abdecken, uns aber nicht dabei helfen, zwischen den einzelnen Dokumenten zu unterscheiden. Die Untersuchung der Anzahl von weniger häufig verwendeten Begriffen kann hilfreich sein, aber Sie können sich leicht eine Analyse eines Korpus vorstellen, die auf der KI-Dokumentation von Microsoft basiert, was zu einer großen Anzahl von Begriffen führen würde, die in allen Dokumenten gemeinsam sind; Es ist schwierig, die spezifischen Themen zu bestimmen, die in den einzelnen Dokumenten behandelt werden.

Um dieses Problem zu beheben, ist Term Frequency - Inverse Document Frequency (TF-IDF) eine Technik, die Werte berechnet, abhängig davon, wie oft ein Wort oder Term in einem Dokument im Vergleich zu seiner allgemeineren Häufigkeit in der gesamten Dokumentensammlung vorkommt. Bei verwendung dieser Technik wird ein hoher Grad an Relevanz für Wörter angenommen, die häufig in einem bestimmten Dokument angezeigt werden, aber relativ selten in einer vielzahl anderer Dokumente. Um TF-IDF für Begriffe in einem einzelnen Dokument zu berechnen, können Sie den folgenden dreistufigen Prozess verwenden:

Calculate Term Frequency (TF): Das ist einfach die Häufigkeit, mit der ein Wort in einem Dokument vorkommt. Wenn das Wort "agent" beispielsweise 6 Mal in einem Dokument angezeigt wird, dann tf(agent) = 6.
Berechnen der umgekehrten Dokumenthäufigkeit (IDF): Dadurch wird überprüft, wie häufig oder selten ein Wort in allen Dokumenten ist. Wenn ein Wort in jedem Dokument angezeigt wird, ist es nicht besonders. Die Formel, die zum Berechnen von IDF verwendet wird, lautet idf(t) = log(N / df(t)) (wobei N die Gesamtzahl der Dokumente und df(t) die Anzahl der Dokumente ist, die das Wort tenthalten)
Kombinieren Sie sie, um TF-IDF zu berechnen: Multiplizieren Sie TF und IDF, um die Bewertung zu erhalten: tfidf(t, d) = tf(t, d) * log(N / df(t))

Eine hohe TF-IDF Bewertung gibt an, dass ein Wort häufig in einem Dokument, aber selten in anderen angezeigt wird. Ein niedriger Wert gibt an, dass Wort in vielen Dokumenten häufig verwendet wird. In zwei Beispielen über KI-Agenten, weil "AI", "Microsoft" und "agent" in beiden Stichproben erscheinen (N = 2, df(t) = 2), ist ihre IDF log(2/2) = 0, daher tragen sie kein diskriminatives Gewicht in TF-IDF. Die drei wichtigsten TF-IDF Ergebnisse für die Stichproben sind:

Beispiel A:

Begriff	TF-IDF
`copilot`	2.0794
`studio`	2.0794
`declarative`	1.3863

Beispiel B:

Begriff	TF-IDF
`code`	2.0794
`develop`	2.0794
`foundry`	2.0794

Aus diesen Ergebnissen geht es deutlicher, dass es bei Beispiel A um die deklarative Agent-Erstellung mit Copilot Studio geht, während es sich bei Beispiel B um die codebasierte Agententwicklung mit Microsoft Foundry handelt.

Maschinelles Lernen: "Bag-of-Words"-Techniken

Bag-of-Words ist die Bezeichnung für eine Funktion, die Text-Token als Vektor von Worthäufigkeiten oder -vorkommen darstellt und dabei Grammatik und Wortreihenfolge ignoriert. Diese Darstellung wird zur Eingabe für Maschinelle Lernalgorithmen wie Naive Bayes, ein probabilistischer Klassifizierer, der bayes' Theorem anwendet, um die wahrscheinliche Klasse eines Dokuments basierend auf der Worthäufigkeit vorherzusagen.

Beispielsweise können Sie diese Technik verwenden, um ein Machine Learning-Modell zu trainieren, das E-Mail-Spamfilterung durchführt. Die Wörter "miracle cure", "lose weight fast"und "Anti-Aging" werden möglicherweise häufiger in Spam-E-Mails über dubiose Gesundheitsprodukte als Ihre regulären E-Mails angezeigt, und ein trainiertes Modell kennzeichnet Möglicherweise Nachrichten, die diese Wörter als potenzielle Spam enthalten.

Sie können eine Stimmungsanalyse implementieren, indem Sie dieselbe Methode verwenden, um Text nach emotionalem Ton zu klassifizieren. Der Beutel mit Wörtern stellt die Features bereit, und das Modell verwendet diese Features, um Wahrscheinlichkeiten zu schätzen und Stimmungsbezeichnungen wie "positiv" oder "negativ" zuzuweisen.

TextRank

TextRank ist ein nicht überwachter graphbasierter Algorithmus, der Text als Netzwerk verbundener Knoten modelliert. Beispielsweise kann jeder Satz in einem Dokument als Knoten betrachtet werden, und die Verbindungen (Kanten) zwischen ihnen werden basierend auf der Ähnlichkeit der darin enthaltenen Wörter bewertet. TextRank wird häufig verwendet, um Text basierend auf der Identifizierung einer Teilmenge von Sätzen innerhalb eines Dokuments zusammenzufassen, die das gesamte Thema am besten darstellen.

Der TextRank-Algorithmus wendet das gleiche Prinzip wie der PageRank-Algorithmus von Google an (der Webseiten basierend auf Links zwischen ihnen bewertet) auf Text an. Die Schlüsselidee ist, dass ein Satz wichtig ist, wenn er vielen anderen wichtigen Sätzen ähnelt. Der Algorithmus funktioniert durch die folgenden Schritte:

Erstellen sie ein Diagramm: Jeder Satz wird zu einem Knoten, und Ränder, die sie verbinden, werden durch Ähnlichkeit gewichtet (oft gemessen mit Wortüberlappung oder Kosinusgleichheit zwischen Satzvektoren).
Berechnen Sie die Ränge schrittweise: Die Bewertung jedes Knotens wird auf den Bewertungen der verbundenen Knoten basierend berechnet. Die Formel lautet: TextRank(Sᵢ) = (1-d) + d * Σ(wⱼᵢ / Σwⱼₖ) * TextRank(Sⱼ) (dabei d handelt es sich um einen Dämpfungsfaktor, in der Regel 0,85, wⱼᵢ ist das Gewicht des Rands vom Satz j zum Satz i, und die Summe bezieht sich auf alle Sätze, die mit i verbunden sind).
Extrahieren Sie Sätze mit der höchsten Rangfolge: Nach der Konvergenz werden die Sätze mit den höchsten Bewertungen als Zusammenfassung ausgewählt.

Betrachten Sie z. B. das folgende Dokument zu Cloud Computing:

Cloud computing provides on-demand access to computing resources. Computing resources include servers, storage, and networking. Azure is Microsoft's cloud computing platform. Organizations use cloud platforms to reduce infrastructure costs. Cloud computing enables scalability and flexibility.

Um eine Zusammenfassung dieses Dokuments zu generieren, beginnt der TextRank-Prozess mit dem Aufteilen dieses Dokuments in Sätze:

Cloud computing provides on-demand access to computing resources.
Computing resources include servers, storage, and networking.
Azure is Microsoft's cloud computing platform.
Organizations use cloud platforms to reduce infrastructure costs.
Cloud computing enables scalability and flexibility.

Als Nächstes werden Ränder zwischen Sätzen mit Gewichtungen basierend auf Ähnlichkeit (Wortüberlappung) erstellt. In diesem Beispiel können die Kantengewichte wie folgt sein:

Satz 1 <-> Satz 2: 0,5 (Anteile "computing resources")
Satz 1 <-> Satz 3: 0,6 (Anteile "cloud computing")
Satz 1 <-> Satz 4: 0,2 (Anteile "cloud")
Satz 1 <-> Satz 5: 0,7 (Anteile "cloud computing")
Satz 2 <-> Satz 3: 0,2 (begrenzte Überlappung)
Satz 2 <-> Satz 4: 0,1 (begrenzte Überlappung)
Satz 2 <-> Satz 5: 0,1 (Anteile "computing")
Satz 3 <-> Satz 4: 0,5 (Anteile "cloud platforms")
Satz 3 <-> Satz 5: 0,4 (Anteile "cloud computing")
Satz 4 <-> Satz 5: 0,3 (begrenzte Überlappung)

Diagramm der verbundenen Satzknoten.

Nach der iterativen Berechnung der TextRank-Werte unter Verwendung dieser Gewichtungen könnten die Sätze 1, 3 und 5 die höchsten Bewertungen erhalten, weil sie durch gemeinsame Terminologie und Konzepte gut mit anderen Sätzen verbunden sind. Diese Sätze würden ausgewählt, um eine kurze Zusammenfassung zu bilden: "Cloud computing provides on-demand access to computing resources. Azure is Microsoft's cloud computing platform. Cloud computing enables scalability and flexibility."

Hinweis

Das Generieren einer Dokumentzusammenfassung durch Auswählen der relevantesten Sätze ist eine Form der extrahierenden Zusammenfassung. Bei diesem Ansatz wird kein neuer Text generiert – die Zusammenfassung besteht aus einer Teilmenge des ursprünglichen Texts. Neuere Entwicklungen in der semantischen Modellierung ermöglichen auch eine abstrakte Zusammenfassung, in der neue Sprache, die die wichtigsten Themen des Quelldokuments zusammenfasst, generiert wird.

TextRank kann auch auf der Wortebene für die Schlüsselwortextraktion angewendet werden, wobei Wörter (anstelle von Sätzen) Knoten werden, und Kanten stellen ein gemeinsames Vorkommen innerhalb eines festen Fensters dar. Die am höchsten bewerteten Wörter werden als Schlüsselbegriffe extrahiert, die die Hauptthemen des Dokuments darstellen.

Feedback

War diese Seite hilfreich?