Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Thema werden Miningmodellinhalte beschrieben, die spezifisch für Modelle sind, die den Microsoft Decision Trees-Algorithmus verwenden. Eine allgemeine Erläuterung des Miningmodellinhalts für alle Modelltypen finden Sie unter Mining-Modellinhalt (Analysis Services - Data Mining). Es ist wichtig zu beachten, dass der Microsoft Decision Trees-Algorithmus ein Hybridalgorithmus ist, der Modelle mit sehr unterschiedlichen Funktionen erstellen kann: eine Entscheidungsstruktur kann Zuordnungen, Regeln oder sogar lineare Regression darstellen. Die Struktur des Baums ist im Wesentlichen identisch, aber wie Sie die Informationen interpretieren, hängt davon ab, zu welchem Zweck Sie das Modell erstellt haben.
Verständnis der Struktur eines Entscheidungsbaummodells
Ein Entscheidungsstrukturenmodell verfügt über einen einzelnen übergeordneten Knoten, der das Modell und seine Metadaten darstellt. Unterhalb des übergeordneten Knotens befinden sich unabhängige Bäume, die die vorhersagbaren Attribute darstellen, die Sie auswählen. Wenn Sie beispielsweise Ihr Entscheidungsstrukturmodell einrichten, um vorherzusagen, ob Kunden etwas kaufen und Eingaben für Geschlecht und Einkommen bereitstellen, würde das Modell eine einzelne Struktur für das Einkaufsattribute erstellen, mit vielen Zweige, die sich auf Bedingungen im Zusammenhang mit Geschlecht und Einkommen unterteilen.
Wenn Sie dann jedoch ein separates vorhersagbares Attribut für die Teilnahme an einem Kundenprämienprogramm hinzufügen, erstellt der Algorithmus zwei separate Bäume unter dem übergeordneten Knoten. Eine Struktur enthält die Analyse für den Einkauf, und eine andere Struktur enthält die Analyse für das Kundenprämienprogramm. Wenn Sie den Decision Trees-Algorithmus zum Erstellen eines Zuordnungsmodells verwenden, erstellt der Algorithmus eine separate Struktur für jedes Produkt, das vorhergesagt wird, und die Struktur enthält alle anderen Produktkombinationen, die zur Auswahl des Zielattributes beitragen.
Hinweis
Wenn Ihr Modell mehrere Bäume enthält, können Sie im Microsoft Tree Viewer jeweils nur einen Baum anzeigen. Im Generischen Inhaltsstruktur-Viewer werden jedoch alle Bäume im selben Modell gleichzeitig angezeigt.
Die Struktur für jedes vorhersagbare Attribut enthält Informationen, die beschreiben, wie sich die von Ihnen ausgewählten Eingabespalten auf das Ergebnis dieses bestimmten vorhersagbaren Attributs auswirken. Jeder Baum wird von einem Knoten (NODE_TYPE = 9) angeführt, der das vorhersehbare Attribut enthält, gefolgt von einer Abfolge von Knoten (NODE_TYPE = 10), die die Eingabeattribute darstellen. Ein Attribut entspricht entweder einer Spalte auf Fallebene oder Werten von geschachtelten Tabellenspalten, bei denen es sich im Allgemeinen um die Werte in der Key Spalte der geschachtelten Tabelle handelt.
Innen- und Blattknoten stellen geteilte Bedingungen dar. Ein Baum kann mehrmals auf dasselbe Attribut aufgespalten werden. Beispielsweise kann sich das TM_DecisionTree Modell auf [Jährliches Einkommen] und [Anzahl der Kinder] aufteilen und dann erneut auf [Jährliches Einkommen] weiter unten auf dem Baum aufteilen.
Der Microsoft Decision Trees-Algorithmus kann auch lineare Regressionen in ganz oder teilweise innerhalb des Baumes enthalten. Wenn das Attribut, das Sie modellieren, ein fortlaufender numerischer Datentyp ist, kann das Modell einen Regressionsstrukturknoten (NODE_TYPE = 25) erstellen, wobei die Beziehung zwischen den Attributen linear modelliert werden kann. In diesem Fall enthält der Knoten eine Regressionsformel.
Wenn das vorhersagbare Attribut jedoch diskrete Werte aufweist oder numerische Werte zusammengefasst oder diskretisiert wurden, erstellt das Modell immer eine Klassifizierungsstruktur (NODE_TYPE =2). Eine Klassifizierungsstruktur kann für jeden Wert des Attributs mehrere Verzweigungen oder Innenstrukturknoten (NODE_TYPE =3) aufweisen. Die Aufteilung wird jedoch nicht unbedingt für jeden Wert des Attributs verwendet.
Der Microsoft Decision Trees-Algorithmus lässt keine fortlaufenden Datentypen als Eingaben zu; Wenn spalten einen fortlaufenden numerischen Datentyp aufweisen, werden die Werte daher diskretisiert. Der Algorithmus führt an dem Punkt einer Aufteilung für alle fortlaufenden Attribute eine eigene Diskretisierung durch.
Hinweis
Analysis Services wählt automatisch eine Methode zum Bucketing fortlaufender Attribute aus. Sie können jedoch beeinflussen, wie fortlaufende Werte in den Eingaben diskretisiert werden, indem Sie den Inhaltstyp der Miningstrukturspalte auf Discretized festlegen und anschließend die DiscretizationBucketCount- oder DiscretizationMethod-Eigenschaft einstellen.
Modellinhalt für ein Entscheidungsstrukturenmodell
Dieser Abschnitt enthält Details und Beispiele nur für diese Spalten im Miningmodellinhalt, die für Entscheidungsstrukturenmodelle eine besondere Relevanz haben. Informationen zu allgemeinen Spalten im Schemasatz und Erläuterungen der Terminologie der Miningmodelle finden Sie unter Mining Model Content (Analysis Services - Data Mining).
MODELL_KATALOG
Name der Datenbank, in der das Modell gespeichert ist.
MODEL_NAME
Name des Modells.
ATTRIBUTE_NAME
Name des Attributs, das diesem Knoten entspricht.
NODE_NAME
Identisch mit NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Ein eindeutiger Bezeichner für den Knoten innerhalb des Modells. Dieser Wert kann nicht geändert werden.
Bei Entscheidungsstrukturmodellen folgen die eindeutigen Namen der folgenden Konvention, die nicht für alle Algorithmen gilt:
Die untergeordneten Knoten eines bestimmten Knotens weisen alle dasselbe Hexadezimalpräfix auf, gefolgt von einer anderen hexadezimalen Zahl, die die Sequenz des untergeordneten Knotens innerhalb des übergeordneten Knotens darstellt. Sie können die Präfixe verwenden, um einen Pfad abzuleiten.
NODE_TYPE
In Entscheidungsstrukturmodellen werden die folgenden Knotentypen erstellt:
| Knotentyp | BESCHREIBUNG |
|---|---|
| 1 (Modell) | Stammknoten für Modell. |
| 2 (Baum) | Übergeordneter Knoten für Klassifikationsbäume im Modell. Mit der Bezeichnung "Alle" gekennzeichnet. |
| 3 (Innenbereich) | Leiter des inneren Zweigs eines Klassifikationsbaums oder Regressionsbaums. |
| 4 (Verteilung) | Blattknoten, gefunden in einer Klassifizierungsstruktur oder Regressionsstruktur. |
| 25 (Regressionsstruktur) | Übergeordneter Knoten für den Regressionsbaum im Modell. Bezeichnet als "Alle". |
NODE_BESCHRIFTUNG
Ein freundlicher Name für Anzeigezwecke.
Wenn Sie ein Modell erstellen, wird der Wert von NODE_UNIQUE_NAME automatisch als Beschriftung verwendet. Sie können den Wert für NODE_CAPTION jedoch ändern, um den Anzeigenamen für den Cluster programmgesteuert oder mithilfe des Viewers zu aktualisieren. Die Beschriftung wird automatisch vom Modell generiert. Der Inhalt der Beschriftung hängt vom Typ des Modells und vom Knotentyp ab.
In einem Entscheidungsstrukturenmodell weisen die NODE_CAPTION und die NODE_DESCRIPTION je nach Ebene in der Struktur unterschiedliche Informationen auf. Weitere Informationen und Beispiele finden Sie unter Node Caption and Node Description.
Kinderanzahl
Eine Schätzung der Anzahl der Kinder, die der Knoten hat.
Übergeordneter Knoten Gibt die Anzahl der vorhersagbaren Attribute an, die modelliert wurden. Für jedes vorhersagbare Attribut wird ein Baum erstellt.
Strukturknoten Der Knoten "Alle " für jede Struktur gibt an, wie viele Werte für das Zielattribute verwendet wurden.
Wenn das Ziel-Attribut diskret ist, entspricht der Wert der Anzahl der unterschiedlichen Werte plus 1 für den
MissingZustand.Wenn das vorhersagbare Attribut fortlaufend ist, gibt der Wert an, wie viele Buckets zum Modellieren des fortlaufenden Attributs verwendet wurden.
Blattknoten Immer 0.
ELTERN_EINZIGARTIGER_NAME
Der eindeutige Name des übergeordneten Knotens. NULL wird für alle Knoten auf der Stammebene zurückgegeben.
Knotenbeschreibung
Eine Beschreibung des Knotens.
In einem Entscheidungsstrukturenmodell weisen die NODE_CAPTION und die NODE_DESCRIPTION je nach Ebene in der Struktur unterschiedliche Informationen auf.
Weitere Informationen und Beispiele finden Sie unter Node Caption and Node Description.
NODE_RULE
Eine XML-Beschreibung der Regel, die den Pfad zum aktuellen Knoten vom unmittelbaren übergeordneten Knoten beschreibt.
Weitere Informationen und Beispiele finden Sie unter Knotenregel und Randregel.
MARGINAL_REGEL
Eine XML-Beschreibung der Regel, die den Pfad vom übergeordneten Modellknoten zum aktuellen Knoten beschreibt.
Weitere Informationen finden Sie unter Knotenregel und Randregel.
KNOTENWAHRSCHEINLICHKEIT
Die wahrscheinlichkeit, die diesem Knoten zugeordnet ist.
Weitere Informationen finden Sie unter "Wahrscheinlichkeit".
Marginalwahrscheinlichkeit
Die Wahrscheinlichkeit, einen Knoten vom übergeordneten Knoten aus zu erreichen.
Weitere Informationen finden Sie unter "Wahrscheinlichkeit".
KNOTENVERTEILUNG
Eine Tabelle, die das Wahrscheinlichkeits histogramm des Knotens enthält. Die Informationen in dieser Tabelle unterscheiden sich je nachdem, ob das vorhersagbare Attribut eine fortlaufende oder diskrete Variable ist.
Modellstammknoten Diese Tabelle ist leer.
(Alle) Node enthält eine Zusammenfassung für das Modell als Ganzes.
Innenknoten Enthält aggregierte Statistiken für die Blattknoten.
Blattknoten Enthält Unterstützung und Wahrscheinlichkeit für die vorhergesagten Ergebnisse, gegeben alle Bedingungen im Pfad, die zum aktuellen Blattknoten führen.
Regressionsknoten Enthält Regressionsformel, die die Beziehung zwischen den Eingaben und dem vorhersagbaren Attribut darstellt.
Weitere Informationen finden Sie unter Node Distribution for Discrete Attributes and Node Distribution for Continuous Attributes.
Node-Unterstützung
Die Anzahl der Fälle, die diesen Knoten unterstützen.
MSOLAP_MODEL_COLUMN
Gibt die Spalte an, die das vorhersagbare Attribut enthält.
MSOLAP_NODE_SCORE
Zeigt eine Bewertung an, die dem Knoten zugeordnet ist. Weitere Informationen finden Sie unter Node Score.
MSOLAP_KNOTEN_KURZBESCHREIBUNG
Eine Bezeichnung, die für Anzeigezwecke verwendet wird.
Bemerkungen
Ein Entscheidungsstrukturenmodell verfügt nicht über einen separaten Knoten, der Statistiken für das gesamte Modell speichert, im Gegensatz zum Randstatistikknoten in einem Naive Bayes- oder neuralen Netzwerkmodell. Stattdessen erstellt das Modell eine separate Struktur für jedes vorhersagbare Attribut mit einem (Alle)-Knoten oben in der Struktur. Jeder Baum ist unabhängig von den anderen. Wenn Ihr Modell nur ein vorhersagbares Attribut enthält, gibt es nur einen Baum und daher nur einen (Alle)-Knoten.
Jeder Baum, der ein Ausgabeattribut darstellt, wird zusätzlich in Innenzweige (NODE_TYPE = 3) unterteilt, die Teilungen repräsentieren. Jeder dieser Bäume enthält Statistiken zur Verteilung des Zielattributs. Darüber hinaus enthält jeder Blattknoten (NODE_TYPE = 4) Statistiken, die Eingabeattribute und deren Werte beschreiben, zusammen mit der Anzahl der Fälle, in denen jedes Attributwertpaar unterstützt wird. Daher können Sie in jedem Zweig einer Entscheidungsstruktur die Wahrscheinlichkeiten oder die Verteilung von Daten problemlos anzeigen, ohne die Quelldaten abfragen zu müssen. Jede Ebene des Baums stellt zwangsläufig die Summe ihrer unmittelbaren untergeordneten Knoten dar.
Beispiele zum Abrufen dieser Statistiken finden Sie in den Abfragebeispielen des Decision Trees-Modells.
Beispiel für die Struktur des Entscheidungsbaums
Um zu verstehen, wie ein Entscheidungsbaum funktioniert, betrachten Sie ein Beispiel, z. B. das AdventureWorks Bike-Käuferszenario. Unter der Annahme, dass das vorhersehbare Attribut Kundenkäufe ist, versucht der Entscheidungsbaumalgorithmus, unter allen von Ihnen bereitgestellten Eingaben eine Datenspalte zu finden, die am effektivsten die Kunden erkennt, die wahrscheinlich ein Fahrrad kaufen, und diejenigen, die wahrscheinlich kein Fahrrad kaufen werden. Beispielsweise kann das Modell feststellen, dass Das Alter der beste Indikator für das Einkaufsverhalten ist. Insbesondere, dass die Kunden im Alter von 30 Jahren sehr wahrscheinlich ein Fahrrad kaufen, und alle anderen Kunden sind unwahrscheinlich, einen Kauf zu tätigen. In diesem Szenario erstellt das Modell eine Aufteilung des Age-Attributs. Das bedeutet, dass der Baum in zwei Zweigniederlassungen unterteilt wird, eine mit Kunden im Alter von 30 Jahren und die anderen mit Kunden unter 30 Jahren. Die neuen Zweige werden in der Modellstruktur als zwei neue Innenbäume dargestellt (NODE_TYPE = 3).
Für jeden Zweig sucht das Modell weiterhin nach zusätzlichen Attributen, die zur Unterscheidung von Kunden verwendet werden können. Wenn in den Daten nicht genügend Nachweise vorhanden sind, um weiterhin Untergruppen von Kunden zu erstellen, beendet das Modell das Erstellen der Struktur. Das Modell wird auch den Baumaufbau beenden, wenn die Anzahl der Fälle im Knoten zu klein ist, um fortzufahren, unabhängig davon, wie gut der Split ist, oder ob der Wert ein Nullwert oder fehlt. Indem Sie das Wachstum des Baums frühzeitig beenden, verhindern Sie, dass das Modell zu stark auf einen bestimmten Datensatz trainiert wird.
Jeder innere Baumknoten enthält Blattknoten, die eine Aufschlüsselung der Ergebnisse auf Grundlage der aktuellen Klassifizierungsergebnisse liefern. Sie können z. B. einen Innenknoten haben, der Alter >= 30 und Geschlecht = Männlich darstellt. Der Knoten für diese Gruppe zeigt Ihnen, wie viele Kunden in dieser Kategorie etwas gekauft oder nicht gekauft haben. Die Klassifizierung kann z. B. die folgenden Baumaufteilungen enthalten.
| Innenbaum | Trennen |
|---|---|
| Alter >= 30 | Alter >= 30 und Geschlecht = Männlich |
| Alter >= 30 und Geschlecht = Frauen | |
| Alter < 30 | Alter < 30 und Geschlecht = Männlich |
| Alter < 30 und Geschlecht = Weiblich |
Wenn Sie ein Entscheidungsstrukturmodell für die Vorhersage verwenden, verwendet das Modell die Attribute, die Sie als Argumente angeben, und folgt dem Pfad der Attribute nach unten durch die Struktur. Im Allgemeinen gehen alle Vorhersagen in ein Blatt, und die Innenknoten werden nur für die Klassifizierung verwendet.
Ein Blattknoten verfügt immer über eine NODE_TYPE von 4 (Verteilung) und enthält ein Histogramm, das die Wahrscheinlichkeit jedes Ergebnisses (Kauf oder Nichtkauf) anhand der von Ihnen bereitgestellten Attribute angibt. Wenn Sie z. B. nach einer Vorhersage für einen neuen Kunden fragen, der ein Männlicher über 60 ist, sucht das Modell den entsprechenden Knoten (Alter > 30 und Geschlecht = Männlich) und gibt dann die Wahrscheinlichkeit für das von Ihnen angegebene Ergebnis zurück. Diese Wahrscheinlichkeiten werden in der NODE_DISTRIBUTION Tabelle für den Knoten gespeichert.
Wenn das vorhersagbare Attribut eine fortlaufende Zahl ist, versucht der Algorithmus, eine Regressionsformel zu erstellen, die die Beziehung zwischen dem vorhersagbaren Attribut und den Eingaben modelliert.
Knotenbeschriftung und Knotenbeschreibung
In einem Entscheidungsstrukturmodell enthalten die Knotenbeschriftung und die Knotenbeschreibung ähnliche Informationen. Die Knotenbeschreibung ist jedoch vollständiger und enthält weitere Informationen, wenn Sie sich näher an die Blattknoten bewegen. Sowohl die Knotenbeschriftung als auch die Knotenbeschreibung sind lokalisierte Zeichenfolgen.
| NODE_CAPTION | Zeigt das Attribut an, das diesen bestimmten Knoten relativ zum übergeordneten Knoten unterscheidet. Die Knotenbeschriftung definiert ein Untersegment der Grundgesamtheit basierend auf der Aufteilungsbedingung. Wenn die Aufteilung z. B. auf [Alter] lag und es sich um eine dreifache Aufteilung handelte, könnten die Knotenbeschriftungen für die drei untergeordneten Knoten "[Alter] < 40", "40 <= [Alter] < 50", "[Alter] >= 50" lauten. |
| NODE_DESCRIPTION | Enthält eine vollständige Liste der Attribute, die diesen Knoten von anderen Knoten unterscheiden, beginnend mit dem übergeordneten Modellknoten. Beispiel: Produktname = Apple und Color = Rot. |
Knotenregel und Randregel
Die Spalten NODE_RULE und MARGINAL_RULE enthalten dieselben Informationen wie die Spalten NODE_CAPTION und NODE_DESCRIPTION, stellen jedoch die Informationen als XML-Fragmente dar. Die Knotenregel ist eine XML-Version des vollständigen Pfads, während die Randregel die letzte Aufteilung angibt.
Das durch das XML-Fragment dargestellte Attribut kann entweder einfach oder komplex sein. Ein einfaches Attribut enthält den Namen der Modellspalte und den Wert des Attributs. Wenn die Modellspalte eine geschachtelte Tabelle enthält, wird das verschachtelte Tabellenattribut als Verkettung des Tabellennamens, des Schlüsselwerts und des Attributs dargestellt.
Hinweis
SQL Server Analysis Services unterstützt Version 2.0 des PMML-Standards mit Erweiterungen zur Unterstützung der Verwendung geschachtelter Tabellen. Wenn Ihre Daten geschachtelte Tabellen enthalten und sie eine PMML-Version des Modells generieren, werden alle Elemente im Modell, die die Prädikate enthalten, als Erweiterung gekennzeichnet.
Knotenverteilung für diskrete Attribute
In einem Entscheidungsstrukturenmodell enthält die NODE_DISTRIBUTION Tabelle nützliche Statistiken. Die Art der Statistik hängt jedoch davon ab, ob die Struktur ein diskretes oder fortlaufendes Attribut vorhersagt. In diesem Abschnitt wird die Bedeutung der Knotenverteilungsstatistiken für diskrete Attribute beschrieben.
Attributname und Attributwert
In einer Klassifizierungsstruktur enthält der Attributname immer den Namen der vorhersagbaren Spalte. Dieser Wert zeigt Ihnen, was der Baum vorhersagt. Da ein einzelner Baum immer ein einzelnes vorhersehbares Attribut darstellt, wird dieser Wert im gesamten Baum wiederholt.
Bei einem einzelnen Datentyp listet das Attributwertfeld die möglichen Werte der vorhersagbaren Spalte sowie den Missing Wert auf.
Unterstützung
Der Unterstützungswert für jeden Knoten gibt an, wie viele Fälle in diesem Knoten enthalten sind. Auf der Ebene (Alle) sollte die vollständige Anzahl der Fälle angezeigt werden, die zum Trainieren des Modells verwendet wurden. Für jede Aufteilung im Baum ist der Unterstützungswert die Anzahl der Fälle, die in diesen Knoten des Baums gruppiert wurden. Die Summe der Fälle in den Blattknoten entspricht notwendigerweise der Anzahl der Fälle im Elternknoten des Baums.
Bei Knoten, die fortlaufende Attribute darstellen, kann das Vorhandensein von Nullen in den Daten zu einigen kontraintuitiven Ergebnissen führen. Wenn beispielsweise m Fälle vorhanden sind, wird ein Mittelwert als Summe(alle Fälle)/n berechnet, wobei n eine Zahl kleiner als m ist und m-n die Anzahl der Fälle mit fehlenden Werten angibt. Der Support wird auch als n dargestellt.
Wahrscheinlichkeit
Die mit den einzelnen Knoten verknüpfte Wahrscheinlichkeit informiert Sie über die Wahrscheinlichkeit, dass jeder Fall im gesamten Dataset in diesem bestimmten Knoten enden würde. Wahrscheinlichkeitswerte werden sowohl für den gesamten Baum als auch für die unmittelbare Aufteilung berechnet.
Die folgende Tabelle zeigt beispielsweise ein sehr einfaches Modell mit 100 Fällen.
| Innenraumbaum | Etuis | Blattknoten | Etuis | Wahrscheinlichkeit relativ zum übergeordneten Knoten | Wahrscheinlichkeit relativ zum oberen Knoten |
|---|---|---|---|---|---|
| Alter >= 30 | 60 | Alter >= 30 und Geschlecht = Männlich | 50 | 50/60 = .83 | 50/100 = 0,5 |
| Alter >= 30 und Geschlecht = Frauen | 10 | 10/60 = .16 | 10/100 = .10 | ||
| Alter < 30 | 40 | Alter < 30 und Geschlecht = Männlich | 30 | 30/40 = 0,75 | 30/100 = 0,30 |
| Alter 30 und < Geschlecht = Frauen | 10 | 10/40 = 0,25 | 10/100 = .10 |
In allen Modellen wird eine kleine Anpassung vorgenommen, um mögliche fehlende Werte zu berücksichtigen. Bei fortlaufenden Attributen wird jeder Wert oder Wertebereich als Zustand dargestellt (z. B. Alter 30, Alter <= 30 und Alter >30), und die Wahrscheinlichkeiten werden wie folgt berechnet: Der Zustand ist vorhanden (Wert = 1), ein anderer Zustand ist vorhanden (Wert = 0).Missing Weitere Informationen dazu, wie Wahrscheinlichkeiten angepasst werden, um fehlende Werte darzustellen, finden Sie unter Fehlende Werte (Analysis Services - Data Mining).For more information about how probabilities are adjust to represent missing values, see Missing Values (Analysis Services - Data Mining).
Die Wahrscheinlichkeiten für jeden Knoten werden fast direkt aus der Verteilung berechnet, wie folgt:
Wahrscheinlichkeit = (Unterstützung für Zustand + Unterstützung für den vorherigen Zustand) / (Knotenunterstützung plus vorheriger Knotenunterstützung)
Analysis Services verwendet Wahrscheinlichkeiten für jeden Knoten, um die gespeicherte Wahrscheinlichkeit mit der vorherigen Wahrscheinlichkeit zu vergleichen, um zu bestimmen, ob der Pfad vom übergeordneten zum untergeordneten Knoten eine starke Ableitung angibt.
Bei der Vorhersage muss die Wahrscheinlichkeit der Verteilung mit der Wahrscheinlichkeit des Knotens ausgeglichen werden, um die Wahrscheinlichkeiten zu glätten. Wenn beispielsweise eine Aufteilung im Baum Fälle im Verhältnis von 9000/1000 aufteilt, ist der Baum sehr unausgewogen. Daher sollte eine Vorhersage, die von einem kleinen Zweig stammt, nicht das gleiche Gewicht haben wie eine Vorhersage aus einem Zweig mit vielen Fällen.
Abweichung
Die Varianz ist ein Maß dafür, wie gestreut Werte in einer Stichprobe bei einer erwarteten Verteilung gegeben sind. Bei diskreten Werten ist die Varianz 0 per Definition.
Informationen dazu, wie die Varianz für fortlaufende Werte berechnet wird, finden Sie unter Mining-Modellinhalt für lineare Regressionsmodelle (Analysis Services - Data Mining).For information about how variance is calculated for continuous values, see Mining Model Content for Linear Regression Models (Analysis Services - Data Mining)
Werttyp
Die Werttypspalte enthält Informationen zur Bedeutung des numerischen Werts, der in den anderen Spalten in der NODE_DISTRIBUTION Tabelle angegeben ist. Sie können den Werttyp in Abfragen verwenden, um bestimmte Zeilen aus den geschachtelten Tabellen abzurufen. Beispiele finden Sie unter Decision Trees Model Query Examples.
Von den Typen in der MiningValueType Enumeration werden die folgenden in Klassifizierungsstrukturen verwendet.
| Werttyp | BESCHREIBUNG |
|---|---|
| 1 (Fehlt) | Gibt eine Anzahl, Wahrscheinlichkeit oder eine andere Statistik im Zusammenhang mit fehlenden Werten an. |
| 4 (diskret) | Gibt eine Anzahl, Wahrscheinlichkeit oder eine andere Statistik im Zusammenhang mit einem diskreten oder diskretisierten Wert an. |
Wenn das Modell ein fortlaufendes vorhersagbares Attribut enthält, könnte der Baum auch Werttypen enthalten, die für Regressionsformeln eindeutig sind. Eine Liste der Werttypen, die in Regressionsbäumen verwendet werden, finden Sie unter Mining Model Content for Linear Regression Models (Analysis Services - Data Mining).
Knotenbewertung
Die Knotenbewertung stellt geringfügig unterschiedliche Informationen auf jeder Stufe des Baumes dar. Im Allgemeinen handelt es sich bei der Punktzahl um einen numerischen Wert, der Ihnen angibt, wie gut eine Aufteilung anhand der Bedingung erzielt wurde. Der Wert wird als Double dargestellt, wobei ein höherer Wert besser ist.
Standardmäßig weisen der Modellknoten und alle Blattknoten eine Knotenbewertung von 0 auf.
Für den Knoten (Alle), der den Anfang jeder Struktur darstellt, enthält die MSOLAP_NODE_SCORE Spalte den besten Teilwert in der gesamten Struktur.
Für alle anderen Knoten im Baum (mit Ausnahme von Blattknoten) stellt der Wert für jeden Knoten die beste Aufspaltungsbewertung des aktuellen Knotens dar, abgezogen von der Aufspaltungsbewertung des übergeordneten Knotens. In der Regel sollte die Teilungsbewertung für einen übergeordneten Knoten immer besser sein als die Teilungsbewertung bei einem seiner untergeordneten Knoten. Das liegt daran, dass ein Entscheidungsbaum-Modell idealerweise die wichtigsten Attribute zuerst aufteilt.
Es gibt viele Möglichkeiten, eine Bewertung für eine Aufteilung zu berechnen, je nach dem ausgewählten Algorithmusparameter. Eine Diskussion darüber, wie die Bewertungen für jede der Bewertungsmethoden berechnet werden, geht über den Umfang dieses Themas hinaus. Weitere Informationen finden Sie auf der Microsoft Research-Website unter "Learning Bayesian Networks: The Combination of Knowledge and Statistical Data".
Hinweis
Wenn Sie ein Entscheidungsstrukturenmodell erstellen, das sowohl kontinuierliche als auch diskrete vorhersagbare Attribute aufweist, werden vollständig unterschiedliche Bewertungen in den Knoten (Alle) angezeigt, die jeden Strukturtyp darstellen. Jedes Modell sollte unabhängig betrachtet werden, und die methoden, die für die Bewertungsregression verwendet werden, unterscheiden sich vollständig von denen, die für die Bewertungsklassifizierung verwendet werden. Die Knotenbewertungswerte können nicht verglichen werden.
Regressionsknoten innerhalb eines Entscheidungsstrukturmodells
Wenn ein Entscheidungsstrukturenmodell ein vorhersagbares Attribut mit fortlaufenden numerischen Daten enthält, sucht der Microsoft Decision Trees-Algorithmus nach Bereichen in den Daten, in denen die Beziehung zwischen dem vorhergesagten Zustand und den Eingabevariablen linear ist. Wenn der Algorithmus erfolgreich eine lineare Beziehung findet, wird eine spezielle Struktur (NODE_TYPE = 25) erstellt, die eine lineare Regression darstellt. Diese Regressionsstrukturknoten sind komplexer als Knoten, die diskrete Werte darstellen.
Im Allgemeinen ordnet eine Regression die Änderungen der fortlaufenden abhängigen (vorhersagbaren Variablen) als Funktion von Änderungen an den Eingaben zu. Wenn die abhängige Variable über fortlaufende Eingaben verfügt und die Beziehung zwischen der Eingabe und dem vorhergesagten Wert stabil genug ist, um als Liniendiagramm berechnet zu werden, enthält der Knoten für die Regression eine Formel.
Wenn die Beziehung zwischen der Eingabe und dem vorhergesagten Wert jedoch nichtlinear ist, wird stattdessen eine Aufteilung wie eine Standardentscheidungsstruktur erstellt. Angenommen, A ist das vorhersagbare Attribut, und B und C sind die Eingaben, wobei C ein fortlaufender Werttyp ist. Wenn die Beziehung zwischen A und C in Teilen der Daten relativ stabil ist, aber instabil in anderen, erstellt der Algorithmus Splits, um die verschiedenen Bereiche der Daten darzustellen.
| Geteilte Bedingung | Ergebnis in Knoten |
|---|---|
| wenn n < 5 | Beziehung kann als Formel 1 ausgedrückt werden |
| wenn n zwischen 5 und 10 | Keine Formel |
| wenn n > 10 | Beziehung kann als Formel 2 ausgedrückt werden |
Weitere Informationen zu Regressionsknoten finden Sie unter Mining-Modellinhalt für lineare Regressionsmodelle (Analysis Services - Data Mining).
Siehe auch
Inhalt des Mining-Modells (Analysis Services - Data Mining)
Data Mining-Modellanzeigen
Data Mining-Abfragen
Microsoft Decision Trees-Algorithmus