Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Ein Liftdiagramm stellt grafisch die Verbesserung dar, die ein Bergbaumodell im Vergleich zu einer zufälligen Vermutung liefert, und misst die Änderung anhand eines Lift-Werts. Indem Sie die Liftergebnisse für verschiedene Teile Ihres Datasets und für unterschiedliche Modelle vergleichen, können Sie bestimmen, welches Modell am besten geeignet ist, und welcher Prozentsatz der Fälle im Dataset von der Anwendung der Modellvorhersagen profitieren würde.
Mit einem Liftdiagramm können Sie die Genauigkeit von Vorhersagen für mehrere Modelle vergleichen, die dasselbe vorhersagbare Attribut aufweisen. Sie können auch die Genauigkeit der Vorhersage für ein einzelnes Ergebnis (einen einzelnen Wert des vorhersagbaren Attributs) oder für alle Ergebnisse (alle Werte des angegebenen Attributs) bewerten.
Ein Gewinndiagramm ist ein verwandter Diagrammtyp, der dieselben Informationen wie ein Liftdiagramm enthält, zeigt aber auch die projizierte Erhöhung des Gewinns an, der mit den einzelnen Modellen verknüpft ist.
Grundlegendes zum Liftdiagramm
Es kann schwer sein, Lift-Diagramme im abstrakten Sinn zu verstehen. Um die Verwendung der Lift-Chart-Tools und der Informationen im Diagramm zu veranschaulichen, stellt dieser Abschnitt ein Szenario dar, in dem ein Lift-Chart verwendet wird, um den Erfolg einer gezielten Mailingkampagne zu schätzen.
Die Marketingabteilung in diesem Szenario weiß, dass eine Reaktionsrate von 10 Prozent mehr oder weniger typisch für Mailingkampagnen ist. Sie haben eine Liste von 10.000 potenziellen Kunden, die in einer Tabelle in der Datenbank gespeichert sind. Basierend auf der typischen Antwortrate könnten sie normalerweise nur etwa 1.000 der potenziellen Kunden eine Rückmeldung geben. Das für das Projekt budgetierte Geld reicht jedoch nicht aus, um alle 10.000 Kunden in der Datenbank zu erreichen und ihre Antwortrate zu verbessern. Gehen Sie davon aus, dass ihr Budget es ihnen ermöglicht, nur 5.000 Kunden eine Werbung zu senden. Die Marketingabteilung hat zwei Optionen:
Wählen Sie zufällig 5.000 Kunden als Ziel aus.
Verwenden Sie ein Mining-Modell, um die 5.000 Kunden anzusprechen, die höchstwahrscheinlich reagieren.
Mithilfe eines Liftdiagramms können Sie die erwarteten Ergebnisse beider Optionen vergleichen. Wenn das Unternehmen beispielsweise zufällig 5.000 Kunden ausgewählt hat, erwarten sie möglicherweise nur 500 Antworten basierend auf der typischen Antwortrate. Dieses Szenario stellt die zufällige Linie im Liftdiagramm dar. Wenn die Marketingabteilung jedoch ein Miningmodell verwendete, um ihre Mailings zu zielen, könnten sie eine bessere Reaktionsrate erwarten, da das Modell die Kunden identifizieren würde, die am ehesten antworten würden. Wenn das Modell perfekt wäre, würde es Vorhersagen schaffen, die nie falsch sind, und das Unternehmen könnte erwarten, 1.000 Antworten zu erhalten, indem er die Sendung nur an die 1.000 potenziellen Kunden sendet, die vom Modell empfohlen werden. Dieses Szenario stellt die ideale Linie im Liftdiagramm dar.
Die Realität ist, dass das Bergbaumodell höchstwahrscheinlich zwischen diesen beiden Extremen fällt; zwischen einer zufälligen Vermutung und einer perfekten Vorhersage. Jede Verbesserung gegenüber dem Zufallswert wird als Auftrieb betrachtet.
Wenn Sie ein Liftdiagramm erstellen, können Sie einen bestimmten Wert anvisieren und die Messung des Lifts nur für dieses Ergebnis vornehmen, oder Sie können eine allgemeine Bewertung des Modells erstellen, die den Lift für alle möglichen Ergebnisse misst. Diese Auswahlen wirken sich auf das endgültige Diagramm aus, wie in den folgenden Abschnitten beschrieben.
Lift-Diagramm mit Zielwert
Das folgende Diagramm zeigt ein Liftdiagramm für das Targeted Mailing-Modell, das Sie im Grundkurs zum Einfachen Data Mining erstellen. In diesem Diagramm ist das Ziel-Attribut [Bike Buyer] und der Zielwert 1, d. h. der Kunde wird vorhergesagt, ein Fahrrad zu kaufen. Das Liftdiagramm zeigt somit die Verbesserung, die das Modell bietet, wenn diese potenziellen Kunden identifiziert werden.
Dieses Diagramm enthält mehrere Modelle, die auf denselben Daten basieren. Eines dieser Modelle wurde an bestimmte Kunden angepasst. Sie können ein Modell anpassen, indem Sie Filter zu den Daten hinzufügen, die zum Trainieren des Modus verwendet werden. Dieser Filter schränkt die Fälle ein, die sowohl in Schulungen als auch in der Auswertung für Kunden verwendet werden, die unter 30 Jahren sind. Beachten Sie, dass ein Effekt der Filterung darin besteht, dass das Basismodell und das gefilterte Modell unterschiedliche Datensätze verwenden und daher auch die Anzahl der Fälle, die für die Auswertung im Liftdiagramm verwendet werden, unterschiedlich ist. Dieser Punkt ist wichtig zu beachten, wenn Sie die Vorhersageergebnisse und andere Statistiken interpretieren.
Die x-Achse des Diagramms stellt den Prozentsatz des Testdatensatzes dar, der zum Vergleichen der Vorhersagen verwendet wird. Die Y-Achse des Diagramms stellt den Prozentsatz der vorhergesagten Werte dar.
Die diagonale gerade Linie, die hier in Blau angezeigt wird, wird in jedem Diagramm angezeigt. Es stellt die Ergebnisse der zufälligen Schätzung dar und ist der Basiswert, mit dem der Lift ausgewertet werden soll. Für jedes Modell, das Sie einem Liftdiagramm hinzufügen, erhalten Sie zwei zusätzliche Linien: Eine Zeile zeigt die idealen Ergebnisse für den Trainingsdatensatz an, wenn Sie ein Modell erstellen könnten, das immer perfekt vorhergesagt wurde, und die zweite Zeile zeigt den tatsächlichen Lift oder die Verbesserung der Ergebnisse für das Modell an.
In diesem Beispiel wird die ideale Linie für das gefilterte Modell in Dunkelblau und die Linie für den tatsächlichen Lift in Gelb angezeigt. Sie können aus dem Diagramm erkennen, dass die idealen Linienspitzen um rund 40 Prozent hoch sind, was bedeutet, dass Sie, wenn Sie ein perfektes Modell hatten, 100 Prozent Ihrer Zielkunden erreichen könnten, indem Sie eine Sendung an nur 40% der Gesamtbevölkerung senden. Der tatsächliche Lift für das gefilterte Modell, wenn Sie auf 40 Prozent der Bevölkerung abzielen, liegt zwischen 60 und 70 Prozent. Das bedeutet, dass Sie 60 bis 70 Prozent Ihrer Zielkunden erreichen können, indem Sie den Versand an 40 Prozent der gesamten Kundenpopulation senden.
Die Mininglegende enthält die tatsächlichen Werte an jedem Punkt auf den Kurven. Sie können den Ort ändern, der gemessen wird, indem Sie auf den vertikalen grauen Balken klicken und ihn verschieben. Im Diagramm wurde die graue Linie auf 30 Prozent verschoben, da dies der Punkt ist, an dem sowohl die gefilterten als auch die ungefilterten Modelle am effektivsten erscheinen, und nach diesem Punkt nimmt die Effektivität ab.
Die Mininglegende enthält auch Bewertungen und Statistiken, mit denen Sie das Diagramm interpretieren können. Diese Ergebnisse stellen die Genauigkeit des Modells in der grauen Linie dar, die in diesem Szenario positioniert ist, um 30 Prozent der Gesamttestfälle einzuschließen.
| Serie und Modell | Punktzahl | Zielpopulation | Vorhersagen der Wahrscheinlichkeit |
|---|---|---|---|
| Gezieltes Mailing an alle | 0.71 | 47.40% | 61.38% |
| Gezielte Sendung an Zielgruppe unter 30 Jahre | 0.85 | 51.81% | 46.62% |
| Zufälliges Schätzmodell | 31.00% | ||
| Ideales Modell für: Gezielten Versand an alle | 62.48% | ||
| Ideales Modell für: Gezielte Sendung unter 30 | 65.28% |
Interpretieren der Ergebnisse
Anhand dieser Ergebnisse können Sie sehen, dass bei einer Messung von 30 Prozent aller Fälle das allgemeine Modell [Gezielte Sendung alle] das Fahrradkaufverhalten von 47,40% der Zielpopulation vorhersagen kann. Anders ausgedrückt: Wenn Sie eine gezielte Sendung nur an 30 Prozent der Kunden in Ihrer Datenbank gesendet haben, können Sie etwas weniger als die Hälfte Ihrer Zielgruppe erreichen. Wenn Sie das gefilterte Modell verwendet haben, könnten Sie etwas bessere Ergebnisse erzielen und etwa 51 Prozent Ihrer Zielkunden erreichen.
Der Wert für die Vorhersagewahrscheinlichkeit stellt den Schwellenwert dar, der erforderlich ist, um einen Kunden in die Fälle einzuschließen, die "wahrscheinlich kaufen" sind. Für jeden Fall schätzt das Modell die Genauigkeit jeder Vorhersage und speichert diesen Wert, den Sie verwenden können, um Kunden gezielt anzusprechen oder auszuschließen. Um beispielsweise die Kunden aus dem Basismodell zu identifizieren, die wahrscheinlich Käufer sind, würden Sie eine Abfrage verwenden, um Fälle mit einer Vorhersagewahrscheinlichkeit von mindestens 61 Prozent abzurufen. Um die Kunden anzusprechen, die vom gefilterten Modell erfasst werden, würden Sie eine Abfrage erstellen, die Fälle abruft, die alle Kriterien erfüllen: Alter und einen PredictProbability Wert von mindestens 46 Prozent.
Es ist interessant, die Modelle zu vergleichen. Das gefilterte Modell scheint mehr potenzielle Kunden zu erfassen, aber wenn Sie Kunden mit einer Vorhersagewahrscheinlichkeit von 46 Prozent erreichen, haben Sie auch eine 53-Prozent-Chance, eine Sendung an jemanden zu senden, der kein Fahrrad kauft. Wenn Sie also entscheiden, welches Modell besser ist, sollten Sie die größere Genauigkeit und kleinere Zielgröße des gefilterten Modells mit der Selektivität des Basismodells ausgleichen.
Der Wert für Score hilft Ihnen, Modelle zu vergleichen, indem sie die Effektivität des Modells über eine normalisierte Population hinweg berechnen. Eine höhere Bewertung ist besser, daher können Sie in diesem Fall entscheiden, dass die Zielgruppe von Kunden unter 30 die effektivste Strategie ist, trotz der niedrigeren Vorhersagewahrscheinlichkeit.
Lift-Diagramm für Modell ohne Zielwert
Wenn Sie den Status der vorhersagbaren Spalte nicht angeben, erstellen Sie den Diagrammtyp, der im folgenden Diagramm dargestellt wird. Dieses Diagramm zeigt, wie das Modell für alle Zustände des vorhersagbaren Attributs ausgeführt wird. In diesem Diagramm würden Sie beispielsweise feststellen, wie gut das Modell sowohl Kunden vorhersagt, die wahrscheinlich ein Fahrrad kaufen, als auch diejenigen, die kein Fahrrad kaufen können.
Die x-Achse ist identisch mit dem diagramm mit der angegebenen vorhersagbaren Spalte, aber die y-Achse stellt jetzt den Prozentsatz der Vorhersagen dar, die korrekt sind. Daher ist die ideale Linie die diagonale Linie, die zeigt, dass bei 50 Prozent der Daten das Modell korrekt 50% der Fälle vorhersagt, das maximum, das erwartet werden kann.
Sie können in das Diagramm klicken, um den vertikalen grauen Balken zu verschieben, und die Mininglegende zeigt den Prozentsatz der Fälle insgesamt und den Prozentsatz der Fälle an, die ordnungsgemäß vorhergesagt wurden. Wenn Sie beispielsweise den grauen Schieberegler an der 50-Prozent-Marke positionieren, zeigt die Mininglegende die folgenden Genauigkeitsergebnisse an. Diese Abbildungen basieren auf dem TM_Decision Strukturmodell, das im Lernprogramm "Grundlegendes Data Mining" erstellt wurde.
| Serie, Modell | Punktzahl | Zielpopulation | Vorhersagen der Wahrscheinlichkeit |
|---|---|---|---|
| TM_Entscheidungsbaum | 0,77 | 40.50% | 72.91% |
| Ideales Modell | 50.00% |
In dieser Tabelle wird angegeben, dass bei 50 Prozent der Population das von Ihnen erstellte Modell 40 Prozent der Fälle richtig vorhersagt. Sie könnten dies als ein vernünftig genaues Modell betrachten. Denken Sie jedoch daran, dass dieses bestimmte Modell alle Werte des vorhersagbaren Attributs vorhersagt. Daher könnte das Modell genau sein, um vorherzusagen, dass 90 Prozent der Kunden kein Fahrrad kaufen werden.
Einschränkungen für Liftdiagramme
Liftdiagramme erfordern, dass das vorhersagbare Attribut ein diskreter Wert ist. Mit anderen Worten, Sie können keine Liftdiagramme verwenden, um die Genauigkeit von Modellen zu messen, die fortlaufende numerische Werte vorhersagen.
Die Vorhersagegenauigkeit für alle diskreten Werte des vorhersagbaren Attributs wird in einer einzelnen Zeile angezeigt. Wenn Sie Genauigkeitslinien für jeden einzelnen Wert des vorhersagbaren Attributs anzeigen möchten, müssen Sie für jeden gezielten Wert ein separates Liftdiagramm erstellen.
Sie können einem Liftdiagramm mehrere Modelle hinzufügen, solange alle Modelle dasselbe vorhersagbare Attribut haben. Modelle, die das Attribut nicht freigeben, sind für die Auswahl auf der Registerkarte "Eingabe " nicht verfügbar.
Sie können keine Zeitreihenmodelle in einem Aufzugs- oder Gewinndiagramm anzeigen. Eine gängige Methode zum Messen der Genauigkeit von Zeitreihenvorhersagen besteht darin, einen Teil der historischen Daten zu reservieren und diese Daten mit den Vorhersagen zu vergleichen. Weitere Informationen finden Sie unter Microsoft Time Series Algorithm.