Freigeben über


Inhalt von Miningmodellen für Naive Bayes-Modelle (Analysis Services - Data Mining)

In diesem Thema werden Miningmodellinhalte beschrieben, die spezifisch für Modelle sind, die den Microsoft Naive Bayes-Algorithmus verwenden. Eine Erläuterung dazu, wie Statistiken und Struktur interpretiert werden, die von allen Modelltypen gemeinsam genutzt werden, sowie allgemeine Definitionen von Begriffen im Zusammenhang mit Miningmodellinhalten finden Sie unter Mining Model Content (Analysis Services - Data Mining).

Grundlegendes zur Struktur eines Naive Bayes-Modells

Ein Naive Bayes-Modell verfügt über einen einzelnen übergeordneten Knoten, der das Modell und seine Metadaten darstellt, und unter diesem übergeordneten Knoten eine beliebige Anzahl unabhängiger Strukturen, die die vorhersagbaren Attribute darstellen, die Sie ausgewählt haben. Zusätzlich zu den Strukturen für die Attribute enthält jedes Modell einen Randstatistikknoten (NODE_TYPE = 26), der beschreibende Statistiken über die Gruppe von Schulungsfällen bereitstellt. Weitere Informationen finden Sie im Knoten "Marginal Statistics".

Für jedes vorhersagbare Attribut und jeden Wert gibt das Modell eine Baumstruktur aus, die Informationen enthält, die beschreiben, wie sich die verschiedenen Eingabespalten auf das Ergebnis dieses spezifisch vorhersagbaren Attributs auswirken. Jede Struktur enthält das vorhersagbare Attribut und dessen Wert (NODE_TYPE = 9) und dann eine Reihe von Knoten, die die Eingabeattribute darstellen (NODE_TYPE = 10). Da die Eingabeattribute in der Regel über mehrere Werte verfügen, verfügt jedes Eingabeattribute (NODE_TYPE = 10) möglicherweise über mehrere untergeordnete Knoten (NODE_TYPE = 11), jeweils für einen bestimmten Status des Attributs.

Hinweis

Da ein Naive Bayes-Modell keine fortlaufenden Datentypen zulässt, werden alle Werte der Eingabespalten als diskret oder diskretisiert behandelt. Sie können angeben, wie ein Wert diskretisiert wird. Für weitere Informationen ändern Sie die Diskretisierung einer Spalte in einem Miningmodell.

Struktur des Modellinhalts für Naive-Bayes

Modellinhalt für ein Naive Bayes-Modell

Dieser Abschnitt enthält nur Details und Beispiele für die Spalten im Miningmodellinhalt, die für Naive Bayes-Modelle eine besondere Relevanz haben.

Informationen zu allgemeinen Spalten im Schema-Rowset, z. B. MODEL_CATALOG und MODEL_NAME, die hier nicht beschrieben werden, oder erläuterungen der Miningmodellterminologie finden Sie unter Mining Model Content (Analysis Services - Data Mining).

MODELL_KATALOG
Name der Datenbank, in der das Modell gespeichert ist.

MODEL_NAME
Name des Modells.

Attributname
Die Namen der Attribute, die diesem Knoten entsprechen.

Modellstamm Der Name des vorhersagbaren Attributs.

Marginalstatistik Nicht zutreffend

Vorhersehbares Attribut Der Name des vorhersagbaren Attributs.

Eingabeattribute Der Name des Eingabeattributes.

Eingabeattributestatus Der Name des Eingabeattributes nur. Verwenden Sie zum Abrufen des Zustands MSOLAP_NODE_SHORT_CAPTION.

NODE_NAME
Der Name des Knotens.

Diese Spalte enthält denselben Wert wie NODE_UNIQUE_NAME.

Weitere Informationen zu Knotenbenennungskonventionen finden Sie unter Verwenden von Knotennamen und IDs.

NODE_EINDEUTIGER_NAME
Der eindeutige Name des Knotens. Die eindeutigen Namen werden gemäß einer Konvention zugewiesen, die Informationen über die Beziehungen zwischen den Knoten bereitstellt. Weitere Informationen zu Knotenbenennungskonventionen finden Sie unter Verwenden von Knotennamen und IDs.

NODE_TYPE
Ein Naive Bayes-Modell gibt die folgenden Knotentypen aus:

Knotentyp-ID BESCHREIBUNG
26 (NaiveBayesMarginalStatNode) Enthält Statistiken, die den gesamten Satz von Schulungsfällen für das Modell beschreiben.
9 (Vorhersagbares Attribut) Enthält den Namen des vorhersagbaren Attributs.
10 (Eingabe-Attribut) Enthält den Namen einer Eingabe-Attributspalte und untergeordnete Knoten, die die Werte für das Attribut enthalten.
11 (Eingabeattribut-Status) Enthält die Werte oder diskretisierten Werte aller Eingabeattribute, die mit einem bestimmten Ausgabeattribute gekoppelt wurden.

NODE_BESCHRIFTUNG
Die Beschriftung oder eine Bildunterschrift, die dem Knoten zugeordnet wird. Diese Eigenschaft dient vor allem zu Darstellungszwecken.

Modellstamm leer

Randstatistiken leer

Vorhersehbares Attribut Der Name des vorhersagbaren Attributs.

Eingabeattribute Der Name des vorhersagbaren Attributs und des aktuellen Eingabeattributes. Beispiel:

Person, die ein Fahrrad kauft -> Alter

Eingabeattributestatus Der Name des vorhersagbaren Attributs und des aktuellen Eingabeattributes sowie der Wert der Eingabe. Beispiel:

Fahrradkäufer -> Alter = Fehlt

Kinderanzahl
Die Anzahl der untergeordneten Elemente, über die der Knoten verfügt.

Modellstamm Anzahl der vorhersehbaren Attribute im Modell plus 1 für den Knoten "Marginalstatistik".

Marginalstatistik Hat ihrer Definition nach keine Unterkategorien.

Vorhersehbares Attribut Anzahl der Eingabeattribute, die mit dem aktuellen vorhersagbaren Attribut zusammenhängen.

Eingabeattribute Anzahl der diskreten oder diskretisierten Werte für das aktuelle Eingabeattribute.

Eingabeattributestatus Immer 0.

ELTER_EINZIGARTIGER_NAME
Der eindeutige Name des übergeordneten Knotens. Weitere Informationen zum Verknüpfen von übergeordneten und untergeordneten Knoten finden Sie unter Verwenden von Knotennamen und IDs.

Knotenbeschreibung
Identisch mit der Knotenbeschriftung.

NODE_REGEL
Eine XML-Darstellung der Knotenbeschriftung.

MARGINAL_REGEL
Identisch mit der Knotenregel.

KNOTENWAHRSCHEINLICHKEIT
Die wahrscheinlichkeit, die diesem Knoten zugeordnet ist.

Modellstamm Immer 0.

Marginalstatistik Immer 0.

Vorhersehbares Attribut Immer 1.

Eingabeattribute Immer 1.

Eingabeattributestatus Eine Dezimalzahl, die die Wahrscheinlichkeit des aktuellen Werts darstellt. Werte aller Eingabeattributzustände unter dem übergeordneten Eingabeattributknoten summieren sich zu 1.

Marginalwahrscheinlichkeit
Identisch mit der Knotenwahrscheinlichkeit.

KNOTENVERTEILUNG
Eine Tabelle, die das Wahrscheinlichkeits histogramm für den Knoten enthält. Weitere Informationen finden Sie in NODE_DISTRIBUTION Tabelle.

Node-Unterstützung
Die Anzahl der Fälle, die diesen Knoten unterstützen.

Modellstamm Anzahl aller Fälle in Schulungsdaten.

Marginalstatistik Immer 0.

Vorhersehbares Attribut Anzahl aller Fälle in Schulungsdaten.

Eingabeattribute Anzahl aller Fälle in Schulungsdaten.

Eingabeattributestatus Anzahl der Fälle in Schulungsdaten, die nur diesen bestimmten Wert enthalten.

MSOLAP_MODEL_COLUMN
Eine Bezeichnung, die für Anzeigezwecke verwendet wird. In der Regel identisch mit ATTRIBUTE_NAME.

MSOLAP_NODE_SCORE
Stellt die Wichtigkeit des Attributs oder Werts innerhalb des Modells dar.

Modellstamm Immer 0.

Marginalstatistik Immer 0.

Vorhersehbares Attribut Immer 0.

Eingabeattribute Interessante Bewertung für das aktuelle Eingabeattribute im Verhältnis zum aktuellen vorhersagbaren Attribut.

Eingabeattributestatus Immer 0.

MSOLAP_KNOTEN_KURZBESCHREIBUNG
Eine Textzeichenfolge, die den Namen oder den Wert einer Spalte darstellt.

Modellstamm Leer

Marginalstatistik Leer

Vorhersehbares Attribut Der Name des vorhersagbaren Attributs.

Eingabeattribute Der Name des Eingabeattributes.

Eingabeattributestatus Der Wert oder der diskretisierte Wert des Eingabeattributes.

Verwenden von Knotennamen und IDs

Die Benennung der Knoten in einem Naive Bayes-Modell bietet zusätzliche Informationen zum Typ des Knotens, um die Beziehungen zwischen den Informationen im Modell leichter zu verstehen. Die folgende Tabelle zeigt die Konvention für die IDs, die verschiedenen Knotentypen zugewiesen sind.

Knotentyp Konvention für Knoten-ID
Modellwurzel (1) Immer 0.
Knoten „Marginal Statistiken“ (26) Ein beliebiger ID-Wert.
Vorhersehbares Attribut (9) Hexadezimalzahl beginnend mit 10000000

Beispiel: 100000001, 10000000b
Eingabeattribute (10) Eine zweiteilige hexadezimale Zahl, bei der der erste Teil immer 20000000 ist, und der zweite Teil beginnt mit dem hexadezimalen Bezeichner des zugehörigen vorhersehbaren Attributs.

Beispiel: 20000000b000000000

In diesem Fall beträgt das zugehörige vorhersehbare Attribut 10000000b.
Zustand des Eingabeattributs (11) Eine dreiteilige Hexadezimalzahl, bei der der erste Teil immer 30000000 ist, beginnt der zweite Teil mit dem Hexadezimalbezeichner des zugehörigen vorhersagbaren Attributs, und der dritte Teil stellt den Bezeichner des Werts dar.

Beispiel: 30000000b000000000002000000

In diesem Fall beträgt das zugehörige vorhersehbare Attribut 10000000b.

Sie können die IDs verwenden, um Eingabeattribute und Zustände mit einem vorhersagbaren Attribut zu verknüpfen. Die folgende Abfrage gibt beispielsweise die Namen und Beschriftungen für Knoten zurück, die die möglichen Kombinationen aus Eingabe- und vorhersagbaren Attributen für das Modell darstellen. TM_NaiveBayes

SELECT NODE_NAME, NODE_CAPTION  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 10  

Erwartete Ergebnisse:

Knotenname NODE_BESCHRIFTUNG
20000000000000001 Fahrradkäufer -> Pendeldistanz
20000000000000002 Bike Buyer -> Englische Bildung
20000000000000003 Fahrradkäufer -> Englisch Beruf
20000000000000009 Fahrradkäufer -> Familienstand
2000000000000000a Fahrradkäufer/in -> Zahl der Kinder im Haushalt
2000000000000000b Fahrradkäufer -> Region
2000000000000000c Fahrradkäufer -> Gesamtanzahl der Kinder

Anschließend können Sie die IDs der übergeordneten Knoten verwenden, um die untergeordneten Knoten abzurufen. Die folgende Abfrage ruft die Knoten ab, die Werte für das Marital Status Attribut enthalten, zusammen mit der Wahrscheinlichkeit jedes Knotens.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 11  
AND [PARENT_UNIQUE_NAME] = '20000000000000009'  

Hinweis

Der Name der Spalte, PARENT_UNIQUE_NAME, muss in eckige Klammern eingeschlossen werden, um ihn vom reservierten Schlüsselwort desselben Namens zu unterscheiden.

Erwartete Ergebnisse:

NODE_NAME NODE_BESCHRIFTUNG KNOTENWAHRSCHEINLICHKEIT
3000000000000000900000000 Fahrradkäufer -> Familienstand = Fehlt 0
3000000000000000900000001 Fahrradkäufer -> Familienstand = S 0.457504004
3000000000000000900000002 Fahrradkäufer -> Familienstand = M 0.542495996

NODE_DISTRIBUTION Tabelle

Die geschachtelte Tabellenspalte NODE_DISTRIBUTION enthält in der Regel Statistiken zur Verteilung von Werten im Knoten. In einem Naive Bayes-Modell wird diese Tabelle nur für die folgenden Knoten aufgefüllt:

Knotentyp Inhalt der geschachtelten Tabelle
Modellwurzel (1) Leer.
Knoten „Marginalstatistiken“ (24) Enthält Zusammenfassungsinformationen für alle vorhersagbaren Attribute und Eingabeattribute für den gesamten Satz von Schulungsdaten.
Vorhersehbares Attribut (9) Leer.
Eingabeattribute (10) Leer.
Zustand des Eingabeattributs (11) Enthält Statistiken, die die Verteilung von Werten in den Schulungsdaten für diese bestimmte Kombination eines vorhersehbaren Werts und eines Eingabeattributewerts beschreiben.

Sie können die Knoten-IDs oder Knotenbeschriftungen verwenden, um immer mehr Detailebenen abzurufen. Die folgende Abfrage ruft beispielsweise bestimmte Spalten aus der NODE_DISTRIBUTION Tabelle nur für die Eingabeattributeknoten ab, die mit dem Wert verknüpft sind. 'Marital Status = S'

SELECT FLATTENED NODE_CAPTION,  
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE  
FROM NODE_DISTRIBUTION) as t  
FROM TM_NaiveBayes.content  
WHERE NODE_TYPE = 11  
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'  

Erwartete Ergebnisse:

NODE_BESCHRIFTUNG t.ATTRIBUTE_NAME t.ATTRIBUTE_VALUE t.UNTERSTÜTZUNG t.W'keit t.VALUETYPE
Fahrradkäufer -> Familienstand = S Fahrradkäufer Fehlend 0 0 1
Fahrradkäufer -> Familienstand = S Fahrradkäufer 0 3783 0.472934117 4
Fahrradkäufer -> Familienstand = S Fahrradkäufer 1 4216 0.527065883 4

In diesen Ergebnissen gibt Ihnen der Wert der Spalte SUPPORT die Anzahl der Kunden mit dem angegebenen Familienstatus an, die ein Fahrrad erworben haben. Die WAHRSCHEINLICHKEITsspalte enthält die Wahrscheinlichkeit jedes Attributwerts, wie nur für diesen Knoten berechnet. Allgemeine Definitionen von Begriffen, die in der tabelle NODE_DISTRIBUTION verwendet werden, finden Sie unter Mining Model Content (Analysis Services - Data Mining).For general definitions of terms used in the NODE_DISTRIBUTION table, see Mining Model Content (Analysis Services - Data Mining).

Informationen im Knoten "Marginal Statistics"

In einem Naive-Bayes-Modell enthält die geschachtelte Tabelle für den Knoten "marginale Statistiken" die Verteilung der Werte für den gesamten Schulungsdatensatz. Die folgende Tabelle enthält beispielsweise eine Teilliste der Statistiken in der geschachtelten NODE_DISTRIBUTION Tabelle für das Modell: TM_NaiveBayes

Attributname ATTRIBUT_WERT Alias WAHRSCHEINLICHKEIT ABWEICHUNG WERTTYP
Fahrradkäufer Fehlend 0 0 0 1
Fahrradkäufer 0 8869 0.507263784 0 4
Fahrradkäufer 1 8615 0.492736216 0 4
Familienstand Fehlend 0 0 0 1
Familienstand S 7999 0.457504004 0 4
Familienstand M 9485 0.542495996 0 4
Kinder insgesamt Fehlend 0 0 0 1
Kinder insgesamt 0 4865 0.278254404 0 4
Kinder insgesamt 3 2093 0.119709449 0 4
Kinder insgesamt 1 3406 0.19480668 0 4

Die Bike Buyer Spalte ist enthalten, da der Randstatistikknoten immer eine Beschreibung des vorhersagbaren Attributs und der möglichen Werte enthält. Alle anderen Spalten, die aufgelistet sind, stellen Eingabeattribute zusammen mit den Werten dar, die im Modell verwendet wurden. Werte können nur fehlen, diskret sein oder diskretisiert werden.

In einem Naive Bayes-Modell kann es keine fortlaufenden Attribute geben; Daher werden alle numerischen Daten entweder als diskret (VALUE_TYPE = 4) oder diskretisiert (VALUE_TYPE = 5) dargestellt.

Jedem Eingabe- und Ausgabeattribute wird ein Missing Wert (VALUE_TYPE = 1) hinzugefügt, um potenzielle Werte darzustellen, die in den Schulungsdaten nicht vorhanden waren. Sie müssen darauf achten, zwischen "fehlend" als Zeichenfolge und dem Standardwert Missing zu unterscheiden. Weitere Informationen finden Sie unter Fehlende Werte (Analysis Services – Data Mining).

Siehe auch

Inhalt des Mining-Modells (Analysis Services - Data Mining)
Data Mining-Modellanzeigen
Data Mining-Abfragen
Microsoft Naive Bayes-Algorithmus