Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)

Une fois que vous avez conçu et traité un modèle d’exploration de données à l’aide de données de la structure d’exploration de données sous-jacente, le modèle d’exploration de données est terminé et contient le contenu du modèle d’exploration de données. Vous pouvez utiliser ce contenu pour effectuer des prédictions ou analyser vos données.

Le contenu du modèle d’exploration de données comprend des métadonnées sur le modèle, des statistiques sur les données et des modèles découverts par l’algorithme d’exploration de données. Selon l’algorithme utilisé, le contenu du modèle peut inclure des formules de régression, des définitions de règles et d’ensembles d’éléments, ou des pondérations et d’autres statistiques.

Quel que soit l’algorithme utilisé, le contenu du modèle d’exploration de données est présenté dans une structure standard. Vous pouvez parcourir la structure dans le visionneur de contenu générique de Microsoft, fourni dans SQL Server Data Tools (SSDT), puis basculer vers l’un des visionneurs personnalisés pour voir comment les informations sont interprétées et affichées graphiquement pour chaque type de modèle. Vous pouvez également créer des requêtes sur le contenu du modèle d’exploration de données à l’aide de n’importe quel client qui prend en charge l’ensemble de lignes de schéma MINING_MODEL_CONTENT. Pour plus d’informations, consultez Tâches de requête d’exploration de données et procédure.

Cette section décrit la structure de base du contenu fourni pour tous les types de modèles d’exploration de données. Il décrit les types de nœuds communs à tout le contenu du modèle d’exploration de données et fournit des conseils sur la façon d’interpréter les informations.

Structure du contenu du modèle d'exploration

Nœuds dans le contenu du modèle

Contenu du modèle d’exploration de données par type d’algorithme

Outils d’affichage du contenu du modèle d’exploration de données

Outils pour interroger le contenu du modèle d’exploration de données

Structure du contenu du modèle d’exploration de données

Le contenu de chaque modèle est présenté sous la forme d’une série de nœuds. Un nœud est un objet au sein d’un modèle d’exploration de données qui contient des métadonnées et des informations sur une partie du modèle. Les nœuds sont organisés dans une hiérarchie. La disposition exacte des nœuds dans la hiérarchie et la signification de la hiérarchie dépendent de l’algorithme que vous avez utilisé. Par exemple, si vous créez un modèle d’arbre de décision, le modèle peut contenir plusieurs arborescences, toutes connectées à la racine du modèle ; si vous créez un modèle de réseau neuronal, le modèle peut contenir un ou plusieurs réseaux, ainsi qu’un nœud de statistiques.

Le premier nœud de chaque modèle est appelé nœud racine ou nœud parent du modèle . Chaque modèle a un nœud racine (NODE_TYPE = 1). Le nœud racine contient généralement des métadonnées sur le modèle et le nombre de nœuds enfants, mais peu d’informations supplémentaires sur les modèles découverts par le modèle.

Selon l’algorithme que vous avez utilisé pour créer le modèle, le nœud racine a un nombre variable de nœuds enfants. Les nœuds enfants ont des significations différentes et contiennent du contenu différent, en fonction de l’algorithme et de la profondeur et de la complexité des données.

Nœuds dans le contenu du modèle d’exploration de données

** Dans un modèle d’exploration de données, un nœud est un conteneur à usage général qui stocke une information sur tout ou partie du modèle. La structure de chaque nœud est toujours la même et contient les colonnes définies par l’ensemble de lignes du schéma d’exploration de données. Pour plus d’informations, consultez DMSCHEMA_MINING_MODEL_CONTENT Ensemble de lignes.

Chaque nœud inclut des métadonnées sur le nœud, y compris un identificateur unique dans chaque modèle, l’ID du nœud parent et le nombre de nœuds enfants dont le nœud a. Les métadonnées identifient le modèle auquel appartient le nœud et le catalogue de bases de données où ce modèle particulier est stocké. Le contenu supplémentaire fourni dans le nœud diffère selon le type d’algorithme que vous avez utilisé pour créer le modèle et peut inclure les éléments suivants :

Nombre de cas dans les données d’apprentissage qui prennent en charge une valeur prédite particulière.
Statistiques, telles que la moyenne, l’écart type ou la variance.
Coefficients et formules.
Définition de règles et de pointeurs latéraux.
Fragments XML qui décrivent une partie du modèle.

Liste des types de nœuds de contenu de minage

Le tableau suivant répertorie les différents types de nœuds qui sont générés dans les modèles d’exploration de données. Étant donné que chaque algorithme traite les informations différemment, chaque modèle génère uniquement quelques types de nœuds spécifiques. Si vous modifiez l’algorithme, le type de nœuds peut changer. En outre, si vous retraitez le modèle, le contenu de chaque nœud peut changer.

Remarque

Si vous utilisez un service d’exploration de données différent de celui fourni dans SQL Server 2014 Analysis Services (SSAS) ou si vous créez vos propres algorithmes de plug-in, des types de nœuds personnalisés supplémentaires peuvent être disponibles.

NODE_TYPE ID	Étiquette de nœud	Contenu du nœud
1	Modèle	Nœud racine de contenu et métadonnées. S'applique à tous les types de modèle.
2	Arborescence	Nœud racine d’une arborescence de classification. S’applique aux modèles d’arbre de décision.
3	Intérieur	Nœud fractionné intérieur dans une arborescence. S’applique aux modèles d’arbre de décision.
4	Répartition	Nœud terminal d’une arborescence. S’applique aux modèles d’arbre de décision.
5	Groupe	Cluster détecté par l’algorithme. S’applique aux modèles de clustering et aux modèles de clustering de séquences.
6	Inconnu	Type de nœud inconnu.
7	Ensemble d'Articles	Ensemble d’éléments détecté par l’algorithme. S’applique aux modèles d’association ou aux modèles de clustering de séquence.
8	Règle d'association	Règle d’association détectée par l’algorithme. S’applique aux modèles d’association ou aux modèles de clustering de séquence.
9	AttributPrédictible	Attribut prévisible. S'applique à tous les types de modèle.
10	InputAttribute	Attribut d’entrée. S’applique aux arbres de décision et aux modèles Naïve Bayes.
11	InputAttributeState	Statistiques sur les états d’un attribut d’entrée. S’applique aux arbres de décision et aux modèles Naïve Bayes.
13	Séquence	Nœud principal pour un composant de modèle Markov d’un cluster de séquences. S’applique aux modèles de groupement de séquences.
14	Transition	Matrice de transition Markov. S’applique aux modèles de regroupement séquentiel.
15	TimeSeries	Nœud non racine d’une arborescence de série chronologique. S’applique uniquement aux modèles de série chronologique.
16	TsTree	Nœud racine d’une arborescence de série chronologique qui correspond à une série chronologique prévisible. S’applique aux modèles de série chronologique et uniquement si le modèle a été créé à l’aide du paramètre MIXED.
17	NNetSubnetwork	Un sous-réseau. S’applique aux modèles de réseau neuronal.
18	NNetInputLayer	Groupe qui contient les nœuds de la couche d’entrée. S’applique aux modèles de réseau neuronal.
19	NNetHiddenLayer	Groupes qui contiennent les nœuds qui décrivent la couche masquée. S’applique aux modèles de réseau neuronal.
Vingt-et-un	NNetOutputLayer	Groupes qui contiennent les nœuds de la couche de sortie. S’applique aux modèles de réseau neuronal.
Vingt-et-un	NNetInputNode	Nœud dans la couche d’entrée qui correspond à un attribut d’entrée avec les états correspondants. S’applique aux modèles de réseau neuronal.
22	NNetHiddenNode	Nœud dans la couche masquée. S’applique aux modèles de réseau neuronal.
23	NNetOutputNode	Nœud dans la couche de sortie. Ce nœud correspond généralement à un attribut de sortie et aux états correspondants. S’applique aux modèles de réseau neuronal.
24	NNetMarginalNode	Statistiques marginales sur l'ensemble d'entraînement. S’applique aux modèles de réseau neuronal.
25	RegressionTreeRoot	Racine d’une arborescence de régression. S’applique aux modèles de régression linéaire et aux modèles d’arbres de décision qui contiennent des attributs d’entrée continus.
26	NaiveBayesMarginalStatNode	Statistiques marginales sur le jeu d’entraînement. S’applique aux modèles Naïve Bayes.
27	ArimaRoot	Nœud racine d’un modèle ARIMA. S’applique uniquement aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
28	ArimaPeriodicStructure	Structure périodique dans un modèle ARIMA. S’applique uniquement aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
29	ArimaAutoRegressive	Coefficient de régressivité automatique pour un seul terme dans un modèle ARIMA. S’applique uniquement aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
30	ArimaMovingAverage	Coefficient de moyenne mobile pour un seul terme dans un modèle ARIMA. S’applique uniquement aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
1 000	CustomBase	Point de départ pour les types de nœuds personnalisés. Les types de nœuds personnalisés doivent être des entiers supérieurs à cette constante. S’applique aux modèles créés à l’aide d’algorithmes de plug-in personnalisés.

ID de nœud, nom, légende et description

Le nœud racine d’un modèle a toujours l’ID unique (NODE_UNIQUE_NAME) de 0. Tous les ID de nœud sont attribués automatiquement par Analysis Services et ne peuvent pas être modifiés.

Le nœud racine de chaque modèle contient également des métadonnées de base sur le modèle. Ces métadonnées incluent la base de données Analysis Services où le modèle est stocké (MODEL_CATALOG), le schéma (MODEL_SCHEMA) et le nom du modèle (MODEL_NAME). Toutefois, ces informations sont répétées dans tous les nœuds du modèle. Vous n’avez donc pas besoin d’interroger le nœud racine pour obtenir ces métadonnées.

En plus d’un nom utilisé comme identificateur unique, chaque nœud a un nom (NODE_NAME). Ce nom est créé automatiquement par l’algorithme à des fins d’affichage et ne peut pas être modifié.

Remarque

L’algorithme Microsoft Clustering permet aux utilisateurs d’attribuer des noms conviviaux à chaque cluster. Toutefois, ces noms conviviaux ne sont pas conservés sur le serveur et, si vous retraitez le modèle, l’algorithme génère de nouveaux noms de cluster.

La légende et la description de chaque nœud sont générées automatiquement par l’algorithme et servent d’étiquettes pour vous aider à comprendre le contenu du nœud. Le texte généré pour chaque champ dépend du type de modèle. Dans certains cas, le nom, la légende et la description peuvent contenir exactement la même chaîne, mais dans certains modèles, la description peut contenir des informations supplémentaires. Consultez la rubrique sur le type de modèle individuel pour plus d’informations sur l’implémentation.

Remarque

Le serveur Analysis Services prend en charge le renommage des nœuds uniquement si vous générez des modèles à l’aide d’un algorithme de plug-in personnalisé qui implémente le renommage, Pour activer le changement de nom, vous devez remplacer les méthodes lorsque vous créez l’algorithme de plug-in.

Parents du nœud, enfants du nœud et cardinalité du nœud

La relation entre les nœuds parents et enfants d’une arborescence est déterminée par la valeur de la colonne PARENT_UNIQUE_NAME. Cette valeur est stockée dans le nœud enfant et vous indique l’ID du nœud parent. Voici quelques exemples de la façon dont ces informations peuvent être utilisées :

Une PARENT_UNIQUE_NAME qui est NULL signifie que le nœud est le nœud supérieur du modèle.
Si la valeur de PARENT_UNIQUE_NAME est 0, le nœud doit être un descendant direct du nœud supérieur dans le modèle. Cela est dû au fait que l’ID du nœud racine est toujours 0.
Vous pouvez utiliser des fonctions dans une requête DMX (Data Mining Extensions) pour rechercher des descendants ou des parents d’un nœud particulier. Pour plus d’informations sur l’utilisation de fonctions dans les requêtes, consultez Requêtes d’exploration de données.

La cardinalité fait référence au nombre d’éléments d’un ensemble. Dans le cadre d’un modèle de traitement des données, la cardinalité vous indique le nombre d’enfants dans un nœud particulier. Par exemple, si un modèle d’arbre de décision a un nœud pour [Revenu annuel], et que ce nœud a deux nœuds enfants, un pour la condition [Revenu annuel] = Élevé et un pour la condition, [Revenu annuel] = Faible, la valeur de CHILDREN_CARDINALITY pour le nœud [Revenu annuel] serait 2.

Remarque

Dans Analysis Services, seuls les nœuds enfants immédiats sont comptabilisés lors du calcul de la cardinalité d’un nœud. Toutefois, si vous créez un algorithme de plug-in personnalisé, vous pouvez surcharger CHILDREN_CARDINALITY pour compter la cardinalité différemment. Cela peut être utile, par exemple, si vous souhaitez compter le nombre total de descendants, pas seulement les enfants immédiats.

Bien que la cardinalité soit comptabilisée de la même façon pour tous les modèles, la façon dont vous interprétez ou utilisez la valeur de cardinalité diffère selon le type de modèle. Par exemple, dans un modèle de clustering, la cardinalité du nœud supérieur vous indique le nombre total de clusters trouvés. Dans d’autres types de modèles, la cardinalité peut toujours avoir une valeur définie en fonction du type de nœud. Pour plus d’informations sur l’interprétation de la cardinalité, consultez la rubrique sur le type de modèle individuel.

Remarque

Certains modèles, tels que ceux créés par l’algorithme Microsoft Neural Network, contiennent également un type de nœud spécial qui fournit des statistiques descriptives sur les données d’apprentissage pour l’ensemble du modèle. Par définition, ces nœuds n’ont jamais de nœuds enfants.

Distribution de nœuds

La colonne NODE_DISTRIBUTION contient une table imbriquée qui, dans de nombreux nœuds, fournit des informations importantes et détaillées sur les modèles découverts par l’algorithme. Les statistiques exactes fournies dans cette table changent selon le type de modèle, la position du nœud dans l’arborescence et si l’attribut prédictible est une valeur numérique continue ou une valeur discrète ; Toutefois, ils peuvent inclure les valeurs minimales et maximales d’un attribut, les pondérations affectées aux valeurs, le nombre de cas dans un nœud, les coefficients utilisés dans une formule de régression et les mesures statistiques telles que l’écart type et la variance. Pour plus d’informations sur l’interprétation de la distribution de nœuds, consultez la rubrique relative au type de modèle spécifique que vous utilisez.

Remarque

La table NODE_DISTRIBUTION peut être vide, en fonction du type de nœud. Par exemple, certains nœuds servent uniquement à organiser une collection de nœuds enfants, et il s’agit des nœuds enfants qui contiennent les statistiques détaillées.

La table imbriquée, NODE_DISTRIBUTION, contient toujours les colonnes suivantes. Le contenu de chaque colonne varie en fonction du type de modèle. Pour plus d’informations sur les types de modèles spécifiques, consultez Contenu du modèle d’exploration de données par type d’algorithme.

Nom_d’Attribut
Le contenu varie selon l’algorithme. Il peut s’agir du nom d’une colonne, telle qu’un attribut prédictible, une règle, un ensemble d’éléments ou une information interne à l’algorithme, comme une partie d’une formule.

Cette colonne peut également contenir une paire attribut-valeur.

ATTRIBUTE_VALUE
Valeur de l’attribut nommé dans ATTRIBUTE_NAME.

Si le nom de l’attribut est une colonne, dans le cas le plus simple, le ATTRIBUTE_VALUE contient l’une des valeurs discrètes de cette colonne.

Selon la façon dont l’algorithme traite les valeurs, l’ATTRIBUTE_VALUE peut également contenir un indicateur qui vous indique si une valeur existe pour l’attribut (Existing), ou si la valeur est Null (Missing).

Par exemple, si votre modèle est configuré pour rechercher les clients qui ont acheté un élément particulier au moins une fois, la colonne ATTRIBUTE_NAME peut contenir la paire attribut-valeur qui définit l’élément d’intérêt, par Model = 'Water bottle'exemple, et la colonne ATTRIBUTE_VALUE contient uniquement le mot clé Existing ou Missing.

SOUTIEN
Nombre de cas qui ont cette paire attribut-valeur, ou qui contiennent cet ensemble d’éléments ou règle.

En général, pour chaque nœud, la valeur de prise en charge indique le nombre de cas dans le jeu d’entraînement inclus dans le nœud actuel. Dans la plupart des types de modèle, la prise en charge représente un nombre exact de cas. Les valeurs de support sont utiles, car vous pouvez afficher la distribution des données dans les cas d’entraînement sans avoir à interroger les données d’entraînement. Le serveur Analysis Services utilise également ces valeurs stockées pour calculer la probabilité stockée par rapport à la probabilité antérieure, pour déterminer si l’inférence est forte ou faible.

Par exemple, dans une arborescence de classification, la valeur de prise en charge indique le nombre de cas qui ont la combinaison décrite d’attributs.

Dans un arbre de décision, la somme du support à chaque niveau d’un arbre se résume à la prise en charge de son nœud parent. Par exemple, si un modèle contenant 1200 cas est divisé de façon égale par sexe, puis subdivisé de façon égale selon trois valeurs de revenu: faible, moyen et élevé, les nœuds enfants du nœud (2), qui sont des nœuds (4), (5) et (6), totalisent toujours le même nombre de cas que le nœud (2).

ID de nœud et attributs de nœud	Nombre de demandes de support
(1) Racine du modèle	1 200
(2) Sexe = Masculin (3) Sexe = Femelle	600 600
(4) Sexe = Masculin et revenu = Élevé (5) Sexe = Masculin et revenu = Moyen (6) Sexe = Masculin et revenu = Faible	200 200 200
(7) Sexe = Femme et Revenu = Élevé (8) Sexe = Femme et revenu = Moyen (9) Sexe = Femme et Revenu = Faible	200 200 200

Pour un modèle de clustering, le nombre de prise en charge peut être pondéré pour inclure les probabilités d’appartenance à plusieurs clusters. L’appartenance à plusieurs clusters est la méthode de clustering par défaut. Dans ce scénario, étant donné que chaque cas n’appartient pas nécessairement à un seul groupe, le soutien dans ces modèles peut ne pas atteindre 100 % dans tous les groupes.

PROBABILITÉ
Indique la probabilité de ce nœud spécifique dans l’ensemble du modèle.

En règle générale, la probabilité représente la prise en charge de cette valeur particulière, divisée par le nombre total de cas au sein du nœud (NODE_SUPPORT).

Toutefois, la probabilité est légèrement ajustée pour éliminer les biais causés par des valeurs manquantes dans les données.

Par exemple, si les valeurs actuelles pour [Total Children] sont « Un » et « Two », vous souhaitez éviter de créer un modèle qui prédit qu’il est impossible d’avoir aucun enfant ou d’avoir trois enfants. Pour vous assurer que les valeurs manquantes sont improbables, mais pas impossibles, l’algorithme ajoute toujours 1 au nombre de valeurs réelles pour n’importe quel attribut.

Exemple:

Probabilité de [Nombre total d’enfants = Un] = [Nombre de cas où Total Enfants = Un] + 1/[Nombre de tous les cas] + 3

Probabilité de [Nombre total d’enfants = deux]= [Nombre de cas où Total Enfants = Deux] +1/[Nombre de tous les cas] +3

Remarque

L’ajustement de 3 est calculé en ajoutant 1 au nombre total de valeurs existantes, n.

Après ajustement, les probabilités de toutes les valeurs s’ajoutent toujours à 1. La probabilité de la valeur sans données (dans cet exemple, [Total Children = 'Zero', 'Three' ou une autre valeur]), commence à un niveau très faible non nul et augmente lentement à mesure que d’autres cas sont ajoutés.

VARIANCE
Indique la variance des valeurs au sein du nœud. Par définition, la variance est toujours 0 pour les valeurs discrètes. Si le modèle prend en charge les valeurs continues, la variance est calculée en tant que σ (sigma), à l’aide du dénominateur n ou du nombre de cas dans le nœud.

Il existe deux définitions en général pour représenter l’écart type (StDev). Une méthode pour calculer l’écart type prend en compte le biais, et une autre méthode calcule l’écart type sans utiliser de biais. En général, les algorithmes d'exploration de données de Microsoft n'utilisent pas de biais lors du calcul de l'écart type.

La valeur qui apparaît dans la table NODE_DISTRIBUTION est la valeur réelle de tous les attributs discrets et discrétisés, ainsi que la moyenne des valeurs continues.

TYPE_DE_VALEUR
Indique le type de données de la valeur ou d’un attribut et l’utilisation de la valeur. Certains types valeur s’appliquent uniquement à certains types de modèle :

TYPE_DE_VALEUR IDENTIFIANT	Étiquette de valeur	Nom du type-valeur
1	Manquant	Indique que les données de cas ne contiennent pas de valeur pour cet attribut. L’état `Missing` est calculé séparément des attributs qui ont des valeurs.
2	Actuel	Indique que les données de cas contiennent une valeur pour cet attribut.
3	Continué	Indique que la valeur de l’attribut est une valeur numérique continue et peut donc être représentée par une moyenne, ainsi qu’une variance et un écart type.
4	Discret	Indique une valeur, numérique ou texte, traitée comme discrète. Note Les valeurs discrètes peuvent également être manquantes ; toutefois, ils sont gérés différemment lors de l’établissement de calculs. Pour plus d’informations, consultez Valeurs manquantes (Analysis Services - Exploration de données).
5	Discrétisé	Indique que l’attribut contient des valeurs numériques qui ont été discrétisées. La valeur est une chaîne mise en forme qui décrit les compartiments de discrétisation.
6	Existant	Indique que l’attribut a des valeurs numériques continues et que les valeurs ont été fournies dans les données, par rapport aux valeurs manquantes ou déduites.
7	Coefficient	Indique une valeur numérique qui représente un coefficient. Un coefficient est une valeur appliquée lors du calcul de la valeur de la variable dépendante. Par exemple, si votre modèle crée une formule de régression qui prédit le revenu en fonction de l’âge, le coefficient est utilisé dans la formule qui associe l’âge au revenu.
8	Gain de score	Indique une valeur numérique qui représente le gain de score pour un attribut.
9	Statistiques	Indique une valeur numérique qui représente une statistique pour un régresseur.
10	Nom unique du nœud	Indique que la valeur ne doit pas être gérée comme numérique ou chaîne, mais comme identificateur unique d’un autre nœud de contenu dans un modèle. Par exemple, dans un modèle de réseau neuronal, les ID fournissent des pointeurs de nœuds de la couche de sortie vers des nœuds de la couche masquée et des nœuds de la couche masquée aux nœuds de la couche d’entrée.
11	Intercepter	Indique une valeur numérique qui représente l’interception dans une formule de régression.
12	Périodicité	Indique que la valeur désigne une structure périodique dans un modèle. S’applique uniquement aux modèles de série chronologique qui contiennent un modèle ARIMA. Remarque : L’algorithme Microsoft Time Series détecte automatiquement les structures périodiques en fonction des données d’apprentissage. Par conséquent, les périodicités du modèle final peuvent inclure des valeurs de périodicité que vous n’avez pas fournis en tant que paramètre lors de la création du modèle.
13	Ordre autorégressif	Indique que la valeur représente le nombre de séries autorégressives. S’applique aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
14	Ordre de moyenne mobile	Représente une valeur qui représente le nombre de moyennes mobiles dans une série. S’applique aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
15	Ordre des différences	Indique que la valeur représente une valeur qui indique le nombre de fois où la série est différenciée. S’applique aux modèles de série chronologique qui utilisent l’algorithme ARIMA.
16	Booléen	Représente un type booléen.
17	Autres	Représente une valeur personnalisée définie par l’algorithme.
18	Chaîne prérenderée	Représente une valeur personnalisée que l’algorithme affiche sous forme de chaîne. Aucune mise en forme n’a été appliquée par le modèle objet.

Les types valeur sont dérivés de l’énumération ADMOMD.NET. Pour plus d’informations, consultez Microsoft.AnalysisServices.AdomdServer.MiningValueType.

Score de nœud

La signification du score de nœud diffère selon le type de modèle et peut également être spécifique au type de nœud. Pour plus d’informations sur la façon dont NODE_SCORE est calculée pour chaque type de modèle et de nœud, consultez Le contenu du modèle d’exploration de données par type d’algorithme.

Probabilité de nœud et probabilité marginale

L'ensemble de lignes du schéma modèle minier inclut les colonnes NODE_PROBABILITY et MARGINAL_PROBABILITY pour tous les types de modèle. Ces colonnes contiennent des valeurs uniquement dans les nœuds où une valeur de probabilité est significative. Par exemple, le nœud racine d’un modèle ne contient jamais de score de probabilité.

Dans ces nœuds qui fournissent des scores de probabilité, la probabilité du nœud et les probabilités marginales représentent différents calculs.

La probabilité marginale est la probabilité d’atteindre le nœud à partir de son parent.
La probabilité de nœud est la probabilité d’atteindre le nœud à partir de la racine.
La probabilité de nœud est toujours inférieure ou égale à la probabilité marginale.

Par exemple, si la population de tous les clients d’un arbre de décision est divisée de façon égale par sexe (et qu’aucune valeur n’est manquante), la probabilité des nœuds enfants doit être .5. Toutefois, supposons que chacun des nœuds du sexe est divisé de façon égale par les niveaux de revenu élevé, moyen et faible. Dans ce cas, le score de MARGINAL_PROBABILITY pour chaque nœud enfant doit toujours être .33, mais la valeur NODE_PROBABILTY sera le produit de toutes les probabilités menant à ce nœud et donc toujours inférieure à la valeur MARGINAL_PROBABILITY.

Niveau de nœud/attribut et valeur	Probabilité marginale	Probabilité de nœud
Racine du modèle Tous les clients cibles	1	1
Cibler les clients divisés par sexe	.5	.5
Cibler les clients divisés par sexe et diviser à nouveau trois façons par revenu	.33	.5 * .33 = .165

Règle de nœud et règle marginale

L’ensemble de lignes de schéma du modèle d’exploration de données inclut également les colonnes NODE_RULE et MARGINAL_RULE pour tous les types de modèles. Ces colonnes contiennent des fragments XML qui peuvent être utilisés pour sérialiser un modèle, ou pour représenter une partie de la structure du modèle. Ces colonnes peuvent être vides pour certains nœuds, si une valeur serait sans signification.

Deux types de règles XML sont fournis, comme les deux types de valeurs de probabilité. Le fragment XML de MARGINAL_RULE définit l’attribut et la valeur du nœud actuel, tandis que le fragment XML de NODE_RULE décrit le chemin d’accès au nœud actuel à partir de la racine du modèle.

Contenu du modèle d’exploration de données par type d’algorithme

Chaque algorithme stocke différents types d’informations dans le cadre de son schéma de contenu. Par exemple, l’algorithme de clustering Microsoft génère de nombreux nœuds enfants, chacun représentant un cluster possible. Chaque nœud de cluster contient des règles qui décrivent les caractéristiques partagées par les éléments du cluster. En revanche, l’algorithme De régression linéaire Microsoft ne contient aucun nœud enfant ; Au lieu de cela, le nœud parent du modèle contient l’équation qui décrit la relation linéaire découverte par l’analyse.

Le tableau suivant fournit des liens vers des rubriques pour chaque type d’algorithme.

Rubriques sur le contenu du modèle : Expliquez la signification de chaque type de nœud pour chaque type d’algorithme et fournissez des conseils sur les nœuds qui sont les plus intéressants dans un type de modèle particulier.
Rubriques d’interrogation : Fournissez des exemples de requêtes sur un type de modèle particulier et des conseils sur la façon d’interpréter les résultats.

Algorithme ou type de modèle	Contenu du modèle	Interrogation de modèles d’exploration de données
Modèles de règles d’association	Contenu du modèle d’exploration de données pour les modèles d’association (Analysis Services - Exploration de données)	Exemples de requêtes de modèle d’association
Modèles de clustering	Contenu du modèle d’exploration de données pour les modèles d’arbre de décision (Analysis Services - Exploration de données)	Exemples de requêtes de modèle de clustering
Modèle d’arbre de décision	Contenu du modèle d’exploration de données pour les modèles d’arbre de décision (Analysis Services - Exploration de données)	Exemples de requêtes de modèle d’arbre de décision
Modèles de régression linéaire	Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)	Exemples de requête de modèle de régression linéaire
Modèles de régression logistique	Contenu du modèle d’exploration de données pour les modèles de régression logistique (Analysis Services - Exploration de données)	Exemples de requête de modèle de régression linéaire
Modèles Naïve Bayes	Contenu du modèle d’exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données)	Exemples de requête de modèle Naive Bayes
Modèles de réseau neuronal	Contenu du modèle d’exploration de données pour les modèles de réseau neuronal (Analysis Services - Exploration de données)	Exemples de requête de modèle de réseau neuronal
Regroupement de séquences	Contenu du modèle d'exploration de données des modèles de clustering de séquences (Services d'analyse - Exploration de données)	Exemples de requêtes sur des modèles de clustering de séquence
Modèles de séries chronologiques	Contenu du modèle d’exploration de données pour les modèles de série chronologique (Analysis Services - Exploration de données)	Exemples de requêtes de modèle de série chronologique

Outils d’affichage du contenu du modèle d’exploration de données

Lorsque vous parcourez ou explorez un modèle dans SQL Server Data Tools (SSDT), vous pouvez afficher les informations de la visionneuse de l’arborescence de contenu générique Microsoft, disponible dans SQL Server Data Tools (SSDT) et SQL Server Management Studio.

Microsoft Generic Content Viewer affiche les colonnes, règles, propriétés, attributs, nœuds et autres contenus du modèle à l’aide des mêmes informations que celles disponibles dans l’ensemble de lignes de schéma de contenu du modèle d’exploration de données. L’ensemble de lignes de schéma de contenu est une infrastructure générique permettant de présenter des informations détaillées sur le contenu d’un modèle d’exploration de données. Vous pouvez afficher le contenu du modèle dans n’importe quel client qui prend en charge les ensembles de lignes hiérarchiques. La visionneuse dans SQL Server Data Tools (SSDT) présente ces informations dans une visionneuse de table HTML qui représente tous les modèles dans un format cohérent, ce qui facilite la compréhension de la structure des modèles que vous créez. Pour plus d’informations, consultez Parcourir un modèle à l’aide de l’arborescence de contenu générique Microsoft.

Outils pour interroger le contenu du modèle d’exploration de données

Pour récupérer le contenu du modèle d’exploration de données, vous devez créer une requête sur le modèle d’exploration de données.

Le moyen le plus simple de créer une requête de contenu consiste à exécuter l’instruction DMX suivante dans SQL Server Management Studio :

SELECT * FROM [<mining model name>].CONTENT

Pour plus d’informations, consultez Requêtes d’exploration de données.

Vous pouvez également interroger le contenu du modèle d’exploration de données à l’aide des ensembles de lignes de schéma d’exploration de données. Un ensemble de lignes de schéma est une structure standard que les clients utilisent pour découvrir, parcourir et interroger des informations sur les structures et modèles d’exploration de données. Vous pouvez interroger les ensembles de lignes de schéma à l’aide d’instructions XMLA, Transact-SQL ou DMX.

Dans SQL Server 2014, vous pouvez également accéder aux informations des ensembles de lignes de schéma d’exploration de données en ouvrant une connexion à l’instance Analysis Services et en interrogeant les tables système. Pour plus d’informations, consultez Querying the Data Mining Schema Rowsets (Analysis Services - Exploration de données).

Voir aussi

Visionneuse d’arborescence de contenu générique Microsoft (exploration de données)
Algorithmes d’exploration de données (Analysis Services - Exploration de données)

Last updated on 2017-06-13

Partager via

Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)

Structure du contenu du modèle d’exploration de données

Nœuds dans le contenu du modèle d’exploration de données

Liste des types de nœuds de contenu de minage

ID de nœud, nom, légende et description

Parents du nœud, enfants du nœud et cardinalité du nœud

Distribution de nœuds

Score de nœud

Probabilité de nœud et probabilité marginale

Règle de nœud et règle marginale

Contenu du modèle d’exploration de données par type d’algorithme

Outils d’affichage du contenu du modèle d’exploration de données

Outils pour interroger le contenu du modèle d’exploration de données

Voir aussi

Ressources supplémentaires