Freigeben über


Modellieren von Flags (Data Mining)

Sie können Modellierungskennzeichnungen in SQL Server Analysis Services verwenden, um zusätzliche Informationen für einen Data Mining-Algorithmus zu den Daten bereitzustellen, die in einer Falltabelle definiert sind. Der Algorithmus kann diese Informationen verwenden, um ein genaueres Data Mining-Modell zu erstellen.

Einige Modellierungsflags werden auf der Ebene der Bergbaustruktur definiert, während andere auf der Ebene der Miningmodellspalte definiert sind. Beispielsweise wird das Modellierungs-Flag NOT NULL bei Miningstrukturspalten verwendet. Sie können zusätzliche Modellierungskennzeichnungen für die Miningmodellspalten definieren, je nach dem Algorithmus, den Sie zum Erstellen des Modells verwenden.

Hinweis

Plug-Ins von Drittanbietern verfügen möglicherweise über andere Modellierungskennzeichnungen, zusätzlich zu den von Analysis Services vordefinierten Flags.

Liste der Modellierungsflaggen

In der folgenden Liste werden die Modellierungskennzeichnungen beschrieben, die in Analysis Services unterstützt werden. Informationen zu Modellierungskennzeichnungen, die von bestimmten Algorithmen unterstützt werden, finden Sie im technischen Referenzthema für den Algorithmus, der zum Erstellen des Modells verwendet wurde.

NOT NULL
Gibt an, dass die Werte für die Attributspalte niemals einen NULL-Wert enthalten sollen. Ein Fehler führt dazu, dass Analysis Services während des Modellschulungsprozesses einen NULL-Wert für diese Attributspalte findet.

MODEL_EXISTENCE_ONLY
Gibt an, dass die Spalte mit zwei Zuständen behandelt wird: Missing und Existing. Wenn der Wert lautet NULL, wird er als fehlender Wert behandelt. Das flag MODEL_EXISTENCE_ONLY wird auf das vorhersagbare Attribut angewendet und wird von den meisten Algorithmen unterstützt.

Tatsächlich ändert das Festlegen des MODEL_EXISTENCE_ONLY-Kennzeichens True die Darstellung der Werte so, dass nur zwei Zustände vorhanden sind: Missing und Existing. Alle nicht fehlenden Werte werden zu einem einzigen Existing Wert kombiniert.

Eine typische Verwendung für dieses Modellierungsflagge wäre in Attributen, für die der NULL Zustand implizite Bedeutung hat, und der explizite Wert des NOT NULL Zustands ist möglicherweise nicht so wichtig wie die Tatsache, dass die Spalte einen Wert aufweist. Beispielsweise kann eine [DateContractSigned]-Spalte sein NULL , wenn ein Vertrag nie unterzeichnet wurde und NOT NULL ob der Vertrag unterzeichnet wurde. Daher können Sie, wenn der Zweck des Modells ist, vorherzusagen, ob ein Vertrag unterzeichnet wird, die MODEL_EXISTENCE_ONLY Kennzeichnung verwenden, um den genauen Datumswert in den NOT NULL Fällen zu ignorieren und nur zwischen Fällen zu unterscheiden, in denen ein Vertrag ist Missing oder Existing.

Hinweis

"Missing" ist ein spezieller Zustand, der vom Algorithmus verwendet wird und sich vom Textwert "Missing" in einer Spalte unterscheidet. Weitere Informationen finden Sie unter Fehlende Werte (Analysis Services – Data Mining).

REGRESSOR
Gibt an, dass die Spalte ein Kandidat für die Verwendung als Regressor während der Verarbeitung ist. Dieses Flag ist für eine Miningmodellspalte definiert und kann nur auf Spalten angewendet werden, die einen fortlaufenden numerischen Datentyp aufweisen. Weitere Informationen zur Verwendung dieses Flags finden Sie im Abschnitt in diesem Thema: Verwendung des REGRESSOR-Modellierungsflags.

Anzeigen und Ändern von Modellierungskennzeichnungen

Sie können die Modellkennzeichnungen anzeigen, die einer Miningstrukturspalte oder Modellspalte in Data Mining Designer zugeordnet sind, indem Sie die Eigenschaften der Struktur oder des Modells anzeigen.

Um zu ermitteln, welche Modellierungskennzeichnungen auf die aktuelle Miningstruktur angewendet wurden, können Sie eine Abfrage für das Data Mining-Schema-Rowset erstellen, das die Modellierungskennzeichnungen nur für die Strukturspalten zurückgibt, indem Sie eine Abfrage wie die folgende verwenden:

SELECT COLUMN_NAME, MODELING_FLAG  
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS  
WHERE STRUCTURE_NAME = '<structure name>'  

Sie können die in einem Modell verwendeten Modellkennzeichnungen hinzufügen oder ändern, indem Sie den Data Mining-Designer verwenden und die Eigenschaften der zugehörigen Spalten bearbeiten. Für solche Änderungen muss die Struktur oder das Modell neu verarbeitet werden.

Sie können Modellierungskennzeichnungen in einer neuen Miningstruktur oder einem neuen Miningmodell mithilfe von DMX oder AMO- oder XMLA-Skripts angeben. Allerdings können Sie die in einem vorhandenen Miningmodell und einer vorhandenen Struktur verwendeten Modellierungskennzeichnungen nicht mithilfe von DMX ändern. Sie müssen ein neues Miningmodell mithilfe der Syntax erstellen. ALTER MINING STRUCTURE....ADD MINING MODEL

Verwendungen der REGRESSOR-Modellierungs-Flag

Wenn Sie das REGRESSOR-Modellierungskennzeichnung für eine Spalte festlegen, geben Sie dem Algorithmus an, dass die Spalte potenzielle Regressoren enthält. Die tatsächlichen Regressoren, die im Modell verwendet werden, werden durch den Algorithmus bestimmt. Ein potenzieller Regressor kann verworfen werden, wenn es das vorhersagbare Attribut nicht modelliert.

Wenn Sie ein Modell mithilfe des Data Mining-Assistenten erstellen, werden alle fortlaufenden Eingabespalten als mögliche Regressoren gekennzeichnet. Selbst wenn Sie das REGRESSOR-Flag nicht explizit für eine Spalte festlegen, wird die Spalte möglicherweise als Regressor im Modell verwendet.

Sie können die Regressoren ermitteln, die tatsächlich im verarbeiteten Modell verwendet wurden, indem Sie eine Abfrage für das Schema-Rowset für das Miningmodell ausführen, wie im folgenden Beispiel gezeigt:

SELECT COLUMN_NAME, MODELING_FLAG  
FROM $system.DMSCHEMA_MINING_COLUMNS  
WHERE MODEL_NAME = '<model name>'  

Anmerkung Wenn Sie ein Miningmodell ändern und den Inhaltstyp einer Spalte von fortlaufend in diskret ändern, müssen Sie die Kennzeichnung in der Miningspalte manuell ändern und dann das Modell erneut verarbeiten.

Regressoren in linearen Regressionsmodellen

Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regressionsalgorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein fortlaufendes Attribut darstellen.

Daher müssen Sie in diesen Modellen nicht angeben, dass eine fortlaufende Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus partitioniert das Dataset in Regionen mit aussagekräftigen Mustern, auch wenn Sie das REGRESSOR-Flag in der Spalte nicht festlegen. Der Unterschied besteht darin, dass der Algorithmus, wenn Sie das Modellierungsflag verwenden, versucht, Regressionsgleichungen der folgenden Form zu finden, um die Muster in den Knoten des Baums anzupassen.

a*C1 + b*C2 + ...

Dann wird die Summe der Residuen berechnet, und wenn die Abweichung zu groß ist, wird eine Aufteilung im Baum erzwungen.

Wenn Sie zum Beispiel das Einkaufsverhalten von Kunden mithilfe des Attributs Einkommen vorhersagen und das REGRESSOR-Modellierungskennzeichen für die Spalte festlegen, würde der Algorithmus zuerst versuchen, die Einkommenswerte mithilfe einer Standardregressionsformel anzupassen. Wenn die Abweichung zu groß ist, wird die Regressionsformel verworfen, und der Baum wird auf ein anderes Attribut aufgeteilt. Der Entscheidungsbaumalgorithmus würde dann versuchen, einen Regressor für das Einkommen an jedem der Zweige nach den Aufteilungen anzupassen.

Sie können den parameter FORCE_REGRESSOR verwenden, um sicherzustellen, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit dem Decision Trees-Algorithmus und dem Linear Regressionsalgorithmus verwendet werden.

Verwenden Sie die folgenden Links, um mehr über die Verwendung von Modellierungskennzeichnungen zu erfahren.

Aufgabe Thema
Bearbeiten von Modellierungskennzeichnungen mithilfe des Data Mining-Designers Anzeigen oder Ändern der Modellierungskennzeichnungen (Data Mining)
Geben Sie einen Hinweis auf den Algorithmus an, um wahrscheinliche Regressoren zu empfehlen. Angeben einer Spalte, die als Regressor in einem Modell verwendet werden soll
Siehe die Modellierungskennzeichnungen, die von bestimmten Algorithmen unterstützt werden (im Abschnitt "Modellierungskennzeichnungen" für jeden Algorithmusreferenzthema) Data Mining-Algorithmen (Analysis Services - Data Mining)
Erfahren Sie mehr über Miningstrukturspalten und die Eigenschaften, die Sie für sie festlegen können. Miningstrukturspalten
Informationen zu Miningmodellspalten und Modellierungsmarkierungen, die auf der Modellebene angewendet werden können Spalten des Miningmodells
Siehe Syntax für die Arbeit mit Modellierungskennzeichnungen in DMX-Anweisungen Modellieren von Flags (DMX)
Verständnis von fehlenden Werten und Umgang mit ihnen Fehlende Werte (Analysis Services - Data Mining)
Informationen zum Verwalten von Modellen und Strukturen und festlegen von Verwendungseigenschaften Verschieben von Data Mining-Objekten