Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der Microsoft Association Rules-Algorithmus ist eine einfache Implementierung des bekannten Apriori-Algorithmus.
Sowohl der Microsoft Decision Trees-Algorithmus als auch der Microsoft Association Rules-Algorithmus können verwendet werden, um Zuordnungen zu analysieren, aber die Regeln, die von jedem Algorithmus gefunden werden, können unterschiedlich sein. In einem Entscheidungsstrukturenmodell basieren die Aufteilungen, die zu bestimmten Regeln führen, auf dem Informationsgewinn, während in einem Zuordnungsmodell Regeln vollständig auf Vertrauen basieren. Daher ist in einem Zuordnungsmodell eine starke Regel oder eine, die ein hohes Vertrauen hat, möglicherweise nicht notwendigerweise interessant, da sie keine neuen Informationen bereitstellt.
Implementierung des Microsoft Association-Algorithmus
Der Apriori-Algorithmus analysiert keine Muster, sondern generiert und zählt dann Kandidatenelemente. Ein Element kann ein Ereignis, ein Produkt oder den Wert eines Attributs darstellen, abhängig vom Typ der zu analysierenden Daten.
Bei dem am häufigsten verwendeten Zuordnungsmodell werden Boolesche Variablen verwendet, die einen Ja/Nein- oder Fehlend/Vorhanden-Wert darstellen und jedem Attribut, wie z. B. einem Produkt- oder Ereignisnamen, zugewiesen werden. Eine Marktkorbanalyse ist ein Beispiel für ein Zuordnungsregelnmodell, das boolesche Variablen verwendet, um das Vorhandensein oder Fehlen bestimmter Produkte im Einkaufskorb eines Kunden darzustellen.
Für jedes Itemset erstellt der Algorithmus dann Bewertungen, die Unterstützung und Konfidenz darstellen. Diese Bewertungen können verwendet werden, um interessante Regeln von den Itemsets abzuleiten.
Zuordnungsmodelle können auch für numerische Attribute erstellt werden. Wenn die Attribute fortlaufend sind, können die Zahlen diskretisiert oder in Buckets gruppiert werden. Die diskretisierten Werte können dann entweder als Booleans oder als Attributwertpaare behandelt werden.
Unterstützung, Wahrscheinlichkeit und Wichtigkeit
Support, das manchmal als Häufigkeit bezeichnet wird, bedeutet die Anzahl der Fälle, die das angestrebte Element oder eine Kombination von Elementen enthalten. Nur Elemente, die mindestens die angegebene Unterstützungsmenge aufweisen, können in das Modell einbezogen werden.
Ein frequentes Itemset bezieht sich auf eine Sammlung von Elementen, bei denen die Kombination von Elementen auch einen Schwellenwert übersteigt, der durch den Parameter MINIMUM_SUPPORT definiert ist. Wenn das Itemset beispielsweise {A,B,C} ist und der MINIMUM_SUPPORT Wert 10 ist, muss jedes einzelne Element A, B und C in mindestens 10 Fällen gefunden werden, um im Modell enthalten zu sein, und die Kombination von Elementen {A,B,C} muss auch in mindestens 10 Fällen gefunden werden.
Anmerkung Sie können auch die Anzahl der Itemsets in einem Miningmodell steuern, indem Sie die maximale Länge eines Itemsets angeben, wobei länge die Anzahl der Elemente bedeutet.
Standardmäßig repräsentiert die Unterstützung für ein bestimmtes Element oder eine Elementgruppe die Anzahl der Fälle, die dieses Element oder diese Gruppe enthalten. Sie können jedoch auch MINIMUM_SUPPORT als Prozentsatz der Gesamtfälle im Dataset ausdrücken, indem Sie die Zahl als Dezimalwert unter 1 eingeben. Wenn Sie z. B. einen MINIMUM_SUPPORT Wert von 0,03 angeben, bedeutet dies, dass mindestens 3% der Gesamtfälle im Dataset dieses Element oder itemset enthalten müssen, um in das Modell aufgenommen zu werden. Sie sollten mit Ihrem Modell experimentieren, um festzustellen, ob die Verwendung einer Anzahl oder eines Prozentsatzes sinnvoller ist.
Im Gegensatz dazu wird der Schwellenwert für Regeln nicht als Anzahl oder Prozentsatz ausgedrückt, sondern als Wahrscheinlichkeit, manchmal auch als Konfidenz bezeichnet. Wenn das Itemset {A,B,C} beispielsweise in 50 Fällen auftritt, aber das Itemset {A,B,D} auch in 50 Fällen auftritt und das Itemset {A,B} in anderen 50 Fällen auftritt, ist offensichtlich, dass {A,B} kein starker Vorhergesagter von {C} ist. Um daher ein bestimmtes Ergebnis gegen alle bekannten Ergebnisse zu gewichten, berechnet Analysis Services die Wahrscheinlichkeit der einzelnen Regel (z. B. Wenn {A,B} Dann {C}), indem die Unterstützung für das Itemset {A,B,C} durch die Unterstützung aller verwandten Itemsets dividiert wird.
Sie können die Anzahl der von einem Modell erzeugten Regeln einschränken, indem Sie einen Wert für MINIMUM_PROBABILITY festlegen.
Für jede erstellte Regel gibt Analysis Services eine Bewertung aus, die ihre Wichtigkeit angibt und auch als Lift bezeichnet wird. Die Wichtigkeit wird für Itemsets und Regeln unterschiedlich berechnet.
Die Wichtigkeit eines Itemsets wird als Wahrscheinlichkeit des Itemsets berechnet, dividiert durch die zusammengesetzte Wahrscheinlichkeit der einzelnen Elemente im Itemset. Wenn beispielsweise ein Itemset {A,B} enthält, zählt Analysis Services zuerst alle Fälle, die diese Kombination A und B enthalten, und dividiert dies durch die Gesamtanzahl der Fälle und normalisiert dann die Wahrscheinlichkeit.
Die Wichtigkeit einer Regel wird anhand der Log-Wahrscheinlichkeit der rechten Seite der Regel, gegeben die linke Seite der Regel, berechnet. In der Regel If {A} Then {B}berechnet Analysis Services beispielsweise das Verhältnis von Fällen mit A und B über Fälle mit B, aber ohne A, und normalisiert dieses Verhältnis dann mithilfe einer logarithmischen Skalierung.
Featureauswahl
Der Algorithmus für Microsoft Association Rules führt keine Art von automatischer Featureauswahl aus. Stattdessen stellt der Algorithmus Parameter bereit, die die vom Algorithmus verwendeten Daten steuern. Dies kann Beschränkungen für die Größe jedes Itemsets oder das Festlegen der maximalen und minimalen Unterstützung umfassen, die erforderlich ist, um dem Modell ein Itemset hinzuzufügen.
Um Elemente und Ereignisse herauszufiltern, die zu häufig und daher nicht interessant sind, verringern Sie den Wert von MAXIMUM_SUPPORT, um sehr häufige Itemsets aus dem Modell zu entfernen.
Wenn Sie Elemente und Itemsets herausfiltern möchten, die selten sind, erhöhen Sie den Wert von MINIMUM_SUPPORT.
Zum Filtern von Regeln erhöhen Sie den Wert von MINIMUM_PROBABILITY.
Anpassen des Algorithmus für Microsoft Association Rules
Der Microsoft Association Rules-Algorithmus unterstützt mehrere Parameter, die sich auf das Verhalten, die Leistung und genauigkeit des resultierenden Miningmodells auswirken.
Festlegen von Algorithmusparametern
Sie können die Parameter für ein Miningmodell jederzeit ändern, indem Sie den Data Mining-Designer in SQL Server Data Tools (SSDT) verwenden. Sie können Parameter auch programmgesteuert ändern, indem Sie die AlgorithmParameters Auflistung in AMO oder das MiningModels-Element (ASSL) in XMLA verwenden. In der folgenden Tabelle werden die einzelnen Parameter beschrieben.
Hinweis
Sie können die Parameter in einem vorhandenen Modell nicht mithilfe einer DMX-Anweisung ändern; Sie müssen die Parameter im DMX CREATE MODEL oder ALTER STRUCTURE... ADD MODEL angeben, wenn Sie das Modell erstellen.
MAXIMUM_ITEMSET_COUNT
Gibt die maximale Anzahl der zu produzierenden Itemsets an. Wenn keine Zahl angegeben wird, wird der Standardwert verwendet.
Der Standardwert ist 200000.
Hinweis
Itemsets werden nach Support eingestuft. Bei Itemsets, die dieselbe Unterstützung haben, ist die Sortierung beliebig.
MAXIMUM_ITEMSET_SIZE
Gibt die maximale Anzahl von Elementen an, die in einem Itemset zulässig sind. Durch Festlegen dieses Werts auf 0 wird angegeben, dass die Größe des Itemsets nicht begrenzt ist.
Der Standard ist „3“.
Hinweis
Durch das Verringern dieses Werts kann die Zeit reduziert werden, die zum Erstellen des Modells erforderlich ist, da die Verarbeitung des Modells beendet wird, wenn der Grenzwert erreicht wird.
MAXIMUM_SUPPORT
Gibt die maximale Anzahl von Fällen an, die ein Itemset unterstützt. Dieser Parameter kann verwendet werden, um Elemente zu beseitigen, die häufig angezeigt werden und daher möglicherweise wenig Bedeutung haben.
Wenn dieser Wert kleiner als 1 ist, stellt der Wert einen Prozentsatz der Gesamtfälle dar. Werte größer als 1 stellen die absolute Anzahl von Fällen dar, die das Itemset enthalten können.
Der Standardwert ist 1.
MINIMUM_ITEMSET_SIZE
Gibt die Mindestanzahl von Elementen an, die in einem Itemset zulässig sind. Wenn Sie diese Zahl erhöhen, enthält das Modell möglicherweise weniger Itemsets. Dies kann hilfreich sein, wenn Sie z. B. Itemsets mit einem einzelnen Element ignorieren möchten.
Der Standardwert ist 1.
Hinweis
Sie können die Modellverarbeitungszeit nicht reduzieren, indem Sie den Minimalwert erhöhen, da Analysis Services die Wahrscheinlichkeit für einzelne Elemente trotzdem als Teil der Verarbeitung berechnen muss. Indem Sie diesen Wert jedoch höher festlegen, können Sie kleinere Itemsets herausfiltern.
MINIMUM_PROBABILITY
Gibt die Minimale Wahrscheinlichkeit an, dass eine Regel wahr ist.
Wenn Sie diesen Wert beispielsweise auf 0,5 festlegen, bedeutet dies, dass keine Regel mit einer Wahrscheinlichkeit von weniger als fünfzig Prozent generiert werden kann.
Der Standardwert ist 0.4.
MINIMUM_SUPPORT
Gibt die Mindestanzahl von Fällen an, die das Itemset enthalten müssen, bevor der Algorithmus eine Regel generiert.
Wenn Sie diesen Wert auf weniger als 1 festlegen, wird die Mindestanzahl der Fälle als Prozentsatz der Gesamtfälle berechnet.
Wenn Sie diesen Wert auf eine ganze Zahl festlegen, die größer als 1 ist, wird die Mindestanzahl der Fälle als Anzahl von Fällen berechnet, die das Itemset enthalten müssen. Der Algorithmus kann den Wert dieses Parameters automatisch erhöhen, wenn der Arbeitsspeicher begrenzt ist.
Der Standardwert ist 0.03. Dies bedeutet, dass ein Itemset in mindestens 3% Fällen gefunden werden muss, um in das Modell aufgenommen zu werden.
OPTIMIZED_PREDICTION_COUNT
Definiert die Anzahl der Elemente, die zur Optimierung der Vorhersage zwischengespeichert werden sollen.
Der Standardwert ist 0. Wenn der Standardwert verwendet wird, erzeugt der Algorithmus so viele Vorhersagen wie in der Abfrage angefordert.
Wenn Sie einen Wert ungleich Null für OPTIMIZED_PREDICTION_COUNT angeben , können Vorhersageabfragen höchstens die angegebene Anzahl von Elementen zurückgeben, auch wenn Sie zusätzliche Vorhersagen anfordern. Das Festlegen eines Werts kann jedoch die Vorhersageleistung verbessern.
Wenn der Wert beispielsweise auf 3 festgelegt ist, speichert der Algorithmus nur drei Elemente für die Vorhersage zwischen. Es können keine zusätzlichen Vorhersagen angezeigt werden, die für die zurückgegebenen drei Elemente gleichermaßen wahrscheinlich sind.
Modellierung von Flaggen
Die folgenden Modellierungskennzeichnungen werden für die Verwendung mit dem Microsoft Association Rules-Algorithmus unterstützt.
NICHT NULL
Gibt an, dass die Spalte keinen Nullwert enthalten kann. Ein Fehler führt dazu, dass Analysis Services während der Modellschulung auf einen Nullwert stößt.
Gilt für die Miningstrukturspalte.
N/A (No improvements necessary unless context provides a translatable equivalent requiring alteration).
Bedeutet, dass die Spalte mit zwei möglichen Zuständen behandelt wird: Missing und Existing. Ein Nullwert ist ein fehlender Wert.
Gilt für die Miningmodellspalte.
Anforderungen
Ein Zuordnungsmodell muss eine Schlüsselspalte, Eingabespalten und eine einzelne vorhersagbare Spalte enthalten.
Eingabe- und vorhersagbare Spalten
Der Microsoft Association Rules-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersehbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen zur Bedeutung von Inhaltstypen in einem Miningmodell finden Sie unter Content Types (Data Mining).
| Kolumne | Inhaltstypen |
|---|---|
| Eingabeattribute | Zyklisch, diskret, diskretisiert, Schlüssel, Tabelle, sortiert |
| Vorhersehbares Attribut | Zyklische, diskrete, diskretisierte, Tabelle, Sortiert |
Hinweis
Zyklische und sortierte Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.
Siehe auch
Microsoft Association Algorithm
Beispiele für Zuordnungsmodellabfragen
Miningmodellinhalt für Zuordnungsmodelle (Analysis Services - Data Mining)