Contenu du modèle d’exploration de données pour les modèles d’arbre de décision (Analysis Services - Exploration de données)

Cette rubrique décrit le contenu du modèle d’exploration de données spécifique aux modèles qui utilisent l’algorithme Microsoft Decision Trees. Pour obtenir une explication générale du contenu du modèle d’exploration de données pour tous les types de modèles, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données). Il est important de se rappeler que l’algorithme Microsoft Decision Trees est un algorithme hybride qui peut créer des modèles avec des fonctions très différentes : un arbre de décision peut représenter des associations, des règles ou même une régression linéaire. La structure de l’arborescence est essentiellement la même, mais la façon dont vous interprétez les informations dépend de l’objectif pour lequel vous avez créé le modèle.

Présentation de la structure d’un modèle d’arbre de décision

Un modèle d’arbre de décision a un nœud parent unique qui représente le modèle et ses métadonnées. Sous le nœud parent, les arborescences indépendantes représentent les attributs prévisibles que vous sélectionnez. Par exemple, si vous avez configuré votre modèle d’arbre de décision pour prédire si les clients achèteront quelque chose et fournissent des entrées pour le sexe et le revenu, le modèle créerait un arbre unique pour l’attribut d’achat, avec de nombreuses branches qui divisent les conditions liées au sexe et au revenu.

Toutefois, si vous ajoutez ensuite un attribut prédictible distinct pour la participation à un programme de récompenses client, l’algorithme crée deux arborescences distinctes sous le nœud parent. Une arborescence contient l’analyse de l’achat, et une autre arborescence contient l’analyse du programme de récompenses client. Si vous utilisez l’algorithme Decision Trees pour créer un modèle d’association, l’algorithme crée une arborescence distincte pour chaque produit prédit et l’arborescence contient toutes les autres combinaisons de produits qui contribuent à la sélection de l’attribut cible.

Remarque

Si votre modèle inclut plusieurs arborescences, vous ne pouvez afficher qu’une seule arborescence à la fois dans la Visionneuse d’arborescences Microsoft. Toutefois, dans la visionneuse d’arborescence de contenu générique , tous les arborescences du même modèle sont affichées en même temps.

structure du contenu du modèle pour un arbre de décision

L’arborescence de chaque attribut prédictible contient des informations qui décrivent la façon dont les colonnes d’entrée que vous choisissez affectent le résultat de cet attribut prédictible particulier. Chaque arborescence est dirigée par un nœud (NODE_TYPE = 9) qui contient l’attribut prédictible, suivi d’une série de nœuds (NODE_TYPE = 10) qui représentent les attributs d’entrée. Un attribut correspond soit à une colonne de niveau cas, soit à des valeurs de colonnes de tables imbriquées, qui sont généralement les valeurs de la colonne Key de la table imbriquée.

Les nœuds intérieurs et nœuds feuille représentent des conditions de fractionnement. Un arbre peut se diviser sur le même attribut plusieurs fois. Par exemple, le modèle de TM_DecisionTree peut fractionner sur [Revenu annuel] et [Nombre d’enfants], puis fractionner à nouveau le [Revenu annuel] plus bas dans l’arbre.

L’algorithme Microsoft Decision Trees peut également contenir des régressions linéaires dans l’ensemble ou une partie de l’arborescence. Si l’attribut que vous modélisez est un type de données numérique continu, le modèle peut créer un nœud d’arborescence de régression (NODE_TYPE = 25) où que la relation entre les attributs puisse être modélisée linéairement. Dans ce cas, le nœud contient une formule de régression.

Toutefois, si l’attribut prédictible a des valeurs discrètes ou si des valeurs numériques ont été compartimentées ou discrétisées, le modèle crée toujours une arborescence de classification (NODE_TYPE =2). Une arborescence de classification peut avoir plusieurs branches ou nœuds d’arbre intérieur (NODE_TYPE =3) pour chaque valeur de l’attribut. Toutefois, le fractionnement n’est pas nécessairement sur chaque valeur de l’attribut.

L’algorithme Microsoft Decision Trees n’autorise pas les types de données continus en tant qu’entrées ; par conséquent, si des colonnes ont un type de données numérique continu, les valeurs sont discrétisées. L’algorithme effectue sa propre discrétisation au point d’un fractionnement pour tous les attributs continus.

Remarque

Analysis Services choisit automatiquement une méthode pour compartimenter des attributs continus ; Toutefois, vous pouvez contrôler la façon dont les valeurs continues dans les entrées sont discrétisées en définissant le type de contenu de la colonne de structure d’exploration de données surDiscretized, puis en définissant la ou DiscretizationMethod la DiscretizationBucketCount propriété.

Contenu du modèle pour un modèle d’arbre de décision

Cette section fournit des détails et des exemples uniquement pour ces colonnes dans le contenu du modèle d’exploration de données qui ont une pertinence particulière pour les modèles d’arbres de décision. Pour plus d’informations sur les colonnes à usage général dans l’ensemble de lignes de schéma et les explications de la terminologie du modèle d’exploration de données, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

CATALOGUE DE MODÈLES
Nom de la base de données où le modèle est stocké.

MODEL_NAME
Nom du modèle.

Nom_d’Attribut
Nom de l’attribut qui correspond à ce nœud.

NODE_NAME
Toujours identique à NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Identificateur unique du nœud dans le modèle. Cette valeur ne peut pas être modifiée.

Pour les modèles d’arbre de décision, les noms uniques suivent la convention suivante, qui ne s’applique pas à tous les algorithmes :

Les nœuds enfants d’un nœud particulier ont tous le même préfixe hexadécimal, suivi d’un autre nombre hexadécimal qui représente la séquence du nœud enfant au sein du parent. Vous pouvez utiliser les préfixes pour déduire un chemin d’accès.

NODE_TYPE
Dans les modèles d’arbre de décision, les types de nœuds suivants sont créés :

Type de nœud	Descriptif
1 (Modèle)	Nœud racine du modèle.
2 (arbre)	Nœud parent pour les arborescences de classification dans le modèle. Intitulé « All ».
3 (Intérieur)	Tête de branche intérieure, trouvée dans une arborescence de classification ou une arborescence de régression.
4 (Distribution)	Nœud feuille, trouvé dans une arborescence de classification ou une arborescence de régression.
25 (arborescence régression)	Nœud parent pour l’arborescence de régression dans le modèle. Étiqueté comme « All ».

NODE_CAPTION
Nom convivial à des fins d’affichage.

Lorsque vous créez un modèle, la valeur de NODE_UNIQUE_NAME est automatiquement utilisée comme légende. Toutefois, vous pouvez modifier la valeur de NODE_CAPTION pour mettre à jour le nom complet du cluster, par programmation ou à l’aide de la visionneuse. La légende est générée automatiquement par le modèle. Le contenu de la légende dépend du type de modèle et du type de nœud.

Dans un modèle d’arbre de décision, le NODE_CAPTION et le NODE_DESCRIPTION ont des informations différentes, selon le niveau de l’arbre. Pour plus d’informations et d’exemples, consultez La légende de nœud et la description du nœud.

CARDINALITÉ_DES_ENFANTS
Estimation du nombre d’enfants dont dispose le nœud.

Nœud parent Indique le nombre d’attributs prédictibles qui ont été modélisés. Une arborescence est créée pour chaque attribut prédictible.

Nœud d’arborescence Le nœud All pour chaque arborescence indique le nombre de valeurs utilisées pour l’attribut cible.

Si l’attribut cible est discret, la valeur est égale au nombre de valeurs distinctes plus 1 pour l’état Missing .
Si l’attribut prédictible est continu, la valeur indique le nombre de compartiments utilisés pour modéliser l’attribut continu.

Nœuds feuilles sont toujours 0.

NOM_UNIQUE_PARENT
Nom unique du parent du nœud. NULL est retourné pour tous les nœuds au niveau racine.

DESCRIPTION_DU_NŒUD
Description du nœud.

Dans un modèle d’arbre de décision, le NODE_CAPTION et le NODE_DESCRIPTION ont des informations différentes, selon le niveau de l’arbre.

Pour plus d’informations et d’exemples, consultez La légende de nœud et la description du nœud.

RÈGLE_NOEUD
Description XML de la règle qui décrit le chemin d’accès au nœud actuel à partir de son nœud parent immédiat.

Pour plus d’informations et d’exemples, consultez La règle de nœud et la règle marginale.

RÈGLE_MARGINALE
Description XML de la règle qui décrit le chemin d’accès du nœud parent du modèle au nœud actuel.

Pour plus d’informations, consultez La règle de nœud et la règle marginale.

PROBABILITÉ_NŒUD
Probabilité associée à ce nœud.

Pour plus d’informations, consultez Probabilité.

PROBABILITÉ MARGINALE
Probabilité d’atteindre le nœud à partir du nœud parent.

Pour plus d’informations, consultez Probabilité.

DISTRIBUTION_DES_NŒUDS
Table qui contient l’histogramme de probabilité du nœud. Les informations de cette table diffèrent selon que l’attribut prédictible est une variable continue ou discrète.

Nœud racine du modèle Cette table est vide.

(Tout) nœud Contient un résumé du modèle dans son ensemble.

Nœud intérieur Contient des statistiques agrégées pour ses nœuds terminaux.

Nœud feuille Contient la prise en charge et la probabilité des résultats prédits en fonction de toutes les conditions du chemin menant au nœud feuille actuel.

Nœud de régression Contient la formule de régression qui représente la relation entre les entrées et l’attribut prédictible.

Pour plus d’informations, consultez Distribution de nœuds pour les attributs discrets et distribution de nœuds pour les attributs continus.

NODE_SUPPORT
Nombre de cas qui prennent en charge ce nœud.

MSOLAP_MODEL_COLUMN
Indique la colonne qui contient l’attribut prédictible.

MSOLAP_NODE_SCORE
Affiche un score associé au nœud. Pour plus d’informations, consultez Score de nœud.

MSOLAP_NODE_SHORT_CAPTION
Étiquette utilisée à des fins d’affichage.

Remarques

Un modèle d’arbre de décision n’a pas de nœud distinct qui stocke les statistiques pour l’ensemble du modèle, contrairement au nœud de statistiques marginales trouvé dans un modèle naive Bayes ou de réseau neuronal. Au lieu de cela, le modèle crée une arborescence distincte pour chaque attribut prédictible, avec un nœud (Tout) en haut de l’arborescence. Chaque arbre est indépendant des autres. Si votre modèle ne contient qu’un seul attribut prédictible, il n’existe qu’une seule arborescence, et donc un seul nœud (Tout).

Chaque arborescence qui représente un attribut de sortie est également subdivisé en branches intérieures (NODE_TYPE = 3) qui représentent des fractionnements. Chacune de ces arborescences contient des statistiques sur la distribution de l’attribut cible. En outre, chaque nœud feuille (NODE_TYPE = 4) contient des statistiques qui décrivent les attributs d’entrée et leurs valeurs, ainsi que le nombre de cas pris en charge par chaque paire attribut-valeur. Par conséquent, dans n’importe quelle branche d’un arbre de décision, vous pouvez afficher facilement les probabilités ou la distribution des données sans avoir à interroger les données sources. Chaque niveau de l’arborescence représente nécessairement la somme de ses nœuds enfants immédiats.

Pour obtenir des exemples de récupération de ces statistiques, consultez exemples de requête de modèle d’arbre de décision.

Exemple de structure d’arbre de décision

Pour comprendre le fonctionnement d’un arbre de décision, considérez un exemple, tel que le scénario de l’acheteur de vélos AdventureWorks. En supposant que l’attribut prévisible est les achats des clients, l’algorithme d’arbres de décision tente de trouver une colonne de données, parmi toutes les entrées que vous avez fournies, qui détecte le plus efficacement les clients susceptibles d’acheter un vélo et ceux qui sont peu susceptibles d’acheter un vélo. Par exemple, le modèle peut trouver que l’âge est le meilleur indicateur du comportement d’achat. Plus précisément, que les clients de plus de 30 ans sont très susceptibles d’acheter un vélo, et tous les autres clients sont peu susceptibles d’effectuer un achat. Dans ce scénario, le modèle crée un fractionnement sur l’attribut Age. Cela signifie que l’arbre se divise en deux branches, un contenant des clients de plus de 30 ans et l’autre contenant des clients de moins de 30 ans. Les nouvelles branches sont représentées dans la structure du modèle sous la forme de deux nouveaux arbres intérieurs (NODE_TYPE = 3).

Pour chaque branche, le modèle continue de rechercher des attributs supplémentaires à utiliser pour différencier les clients. S’il existe des preuves insuffisantes dans les données pour continuer à créer des sous-groupes de clients, le modèle cesse de générer l’arborescence. Le modèle cesse également de générer l’arborescence chaque fois que le nombre de cas dans le nœud est trop petit pour continuer, quel que soit le bien-fondé du fractionnement, ou si la valeur est nulle ou manquante. En arrêtant la croissance de l'arbre tôt, vous empêchez le modèle de s'entraîner de manière trop spécifique à un ensemble particulier de données.

Chaque nœud d’arbre intérieur contient des nœuds feuilles qui fournissent une répartition des résultats en fonction des résultats de classification actuels. Par exemple, vous pouvez avoir un nœud intérieur qui représente Age >= 30 et Gender = Male. Le nœud de ce groupe vous montre combien de clients de cette catégorie ont acheté ou n'ont pas acheté. Par exemple, la classification peut contenir les fractionnements d’arborescence suivants :

Arbre intérieur	Fendre
Âge >= 30	Âge >= 30 ans et sexe = Masculin
	Âge >= 30 ans et sexe = Femme
Âge de 30 ans <	Âge < 30 et sexe = Masculin
	Âge < 30 et sexe = Femme

Lorsque vous utilisez un modèle d’arbre de décision pour la prédiction, le modèle prend les attributs que vous lui fournissez en tant qu’arguments et suit le chemin des attributs vers le bas dans l’arborescence. En général, toutes les prédictions vont à une feuille, et les nœuds intérieurs sont utilisés uniquement pour la classification.

Un nœud feuille a toujours une NODE_TYPE de 4 (Distribution) et contient un histogramme qui indique la probabilité de chaque résultat (achat ou non achat) en fonction des attributs que vous fournissez. Par exemple, si vous demandez une prédiction pour un nouveau client qui est un homme de plus de 60 ans, le modèle recherche le nœud correspondant (Âge > 30 et Sexe = Mâle), puis retourne la probabilité pour le résultat que vous spécifiez. Ces probabilités sont stockées dans la table NODE_DISTRIBUTION pour le nœud.

Si l’attribut prédictible est un nombre continu, l’algorithme tente de créer une formule de régression qui modélise la relation entre l’attribut prédictible et les entrées.

Légende de nœud et description du nœud

Dans un modèle d’arbre de décision, la légende du nœud et la description du nœud contiennent des informations similaires. Toutefois, la description du nœud est plus complète et contient plus d’informations à mesure que vous vous rapprochez des nœuds feuilles. La légende du nœud et la description du nœud sont des chaînes localisées.


NODE_CAPTION	Affiche l’attribut qui distingue ce nœud particulier par rapport au nœud parent. La légende du nœud définit un sous-segment de la population en fonction de la condition de division. Par exemple, si le fractionnement était sur [Age] et qu’il s’agissait d’un fractionnement tridirectionnel, les légendes des trois nœuds enfants peuvent être « [Age] < 40 », « 40 <= [Age] < 50 », « [Age] >= 50 ».
NODE_DESCRIPTION	Contient une liste complète des attributs qui distinguent ce nœud d’autres nœuds, en commençant par le nœud parent du modèle. Par exemple, Nom du produit = Apple et Couleur = Rouge.

NODE_CAPTION

Affiche l’attribut qui distingue ce nœud particulier par rapport au nœud parent. La légende du nœud définit un sous-segment de la population en fonction de la condition de division. Par exemple, si le fractionnement était sur [Age] et qu’il s’agissait d’un fractionnement tridirectionnel, les légendes des trois nœuds enfants peuvent être « [Age] < 40 », « 40 <= [Age] < 50 », « [Age] >= 50 ».

NODE_DESCRIPTION

Contient une liste complète des attributs qui distinguent ce nœud d’autres nœuds, en commençant par le nœud parent du modèle. Par exemple, Nom du produit = Apple et Couleur = Rouge.

Règle de nœud et règle marginale

Les colonnes NODE_RULE et MARGINAL_RULE contiennent les mêmes informations que les colonnes NODE_CAPTION et NODE_DESCRIPTION, mais représentent les informations sous forme de fragments XML. La règle de nœud est une version XML du chemin d’accès complet, tandis que la règle marginale indique le fractionnement le plus récent.

L’attribut représenté par le fragment XML peut être simple ou complexe. Un attribut simple contient le nom de la colonne de modèle et la valeur de l’attribut. Si la colonne de modèle contient une table imbriquée, l’attribut de table imbriqué est représenté sous la forme d’une concaténation du nom de la table, de la valeur de clé et de l’attribut.

Remarque

SQL Server Analysis Services prend en charge la version 2.0 de la norme PMML, avec des extensions pour prendre en charge l’utilisation de la table imbriquée. Si vos données contiennent des tables imbriquées et que vous générez une version PMML du modèle, tous les éléments du modèle qui incluent les prédicats sont marqués comme une extension.

Distribution de nœuds pour les attributs discrets

Dans un modèle d’arbre de décision, la table NODE_DISTRIBUTION contient des statistiques utiles. Toutefois, le type de statistiques varie selon que l’arborescence prédit un attribut discret ou continu. Cette section décrit la signification des statistiques de distribution de nœuds pour les attributs discrets.

Nom de l’attribut et valeur d’attribut

Dans une arborescence de classification, le nom de l’attribut contient toujours le nom de la colonne prévisible. Cette valeur vous indique ce que prédit l’arbre. Étant donné qu’une arborescence unique représente toujours un attribut prédictible unique, cette valeur est répétée dans l’arborescence.

Pour un type de données discret, le champ valeur d’attribut répertorie les valeurs possibles de la colonne prédictible, ainsi que la Missing valeur.

Soutien

La valeur de prise en charge de chaque nœud indique le nombre de cas inclus dans ce nœud. Au niveau (Tout), vous devez voir le nombre complet de cas utilisés pour entraîner le modèle. Pour chaque fractionnement de l’arborescence, la valeur de prise en charge est le nombre de cas qui ont été regroupés dans ce nœud de l’arborescence. La somme des cas dans les nœuds feuilles est nécessairement égale au nombre de cas dans le nœud parent de l’arborescence.

Pour les nœuds qui représentent des attributs continus, la présence de valeurs Null dans les données peut entraîner des résultats contre-intuitifs. Par exemple, s’il existe des cas m, une valeur moyenne est calculée en tant que somme(tous les cas)/n, où n est un nombre inférieur à m, et m-n indique le nombre de cas avec des valeurs manquantes. La prise en charge est également représentée sous la forme n.

Probabilité

La probabilité associée à chaque nœud vous indique la probabilité qu’un cas dans l’ensemble du jeu de données se termine dans ce nœud particulier. Les scores de probabilité sont calculés à la fois pour l’arborescence dans son ensemble et pour le fractionnement immédiat.

Par exemple, le tableau suivant présente un modèle très simple, avec 100 cas.

Arbre intérieur	Instance	Nœud feuille	Instance	Probabilité relative au nœud parent	Probabilité relative au nœud supérieur
Âge >= 30	soixante	Âge >= 30 ans et sexe = Masculin	50	50/60 = .83	50/100 = .5
		Âge >= 30 ans et sexe = Femme	10	10/60 = .16	10/100 = .10
Âge de 30 ans <	40	Âge < 30 et sexe = Masculin	30	30/40 = .75	30/100 = .30
		Âge < 30 et sexe = Femme	10	10/40 = .25	10/100 = .10

Un petit ajustement est effectué dans tous les modèles pour tenir compte des valeurs manquantes possibles. Pour les attributs continus, chaque valeur ou plage de valeurs est représentée en tant qu’état (par exemple, Age 30, Age <= 30 et Age >30) et les probabilités sont calculées comme suit : l’état existe (valeur = 1), un autre état existe (valeur = 0), l’état est Missing. Pour plus d’informations sur la façon dont les probabilités sont ajustées pour représenter les valeurs manquantes, consultez Valeurs manquantes (Analysis Services - Exploration de données).

Les probabilités pour chaque nœud sont calculées presque directement à partir de la distribution, comme suit :

Probabilité = (prise en charge de l’état + prise en charge de l’état antérieur) / (prise en charge du nœud plus prise en charge du nœud précédent)

Analysis Services utilise des probabilités pour chaque nœud afin de comparer la probabilité stockée avec la probabilité antérieure pour déterminer si le chemin d’accès du parent au nœud enfant indique une inférence forte.

Lorsque vous effectuez des prédictions, la probabilité de la distribution doit être équilibrée avec la probabilité du nœud, pour lisser les probabilités. Par exemple, si un fractionnement dans l’arborescence sépare les cas par un ratio de 9000/1000, l’arborescence est très déséquilibré. Par conséquent, une prédiction provenant de la petite branche ne doit pas porter le même poids qu’une prédiction provenant d’une branche avec de nombreux cas.

Écart

La variance est une mesure de la façon dont les valeurs dispersées dans un échantillon sont, en fonction d’une distribution attendue. Pour les valeurs discrètes, la variance est 0 par définition.

Pour plus d’informations sur la façon dont la variance est calculée pour les valeurs continues, consultez Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)

Type de valeur

La colonne de type valeur fournit des informations sur la signification de la valeur numérique fournie dans les autres colonnes de la table NODE_DISTRIBUTION. Vous pouvez utiliser le type valeur dans les requêtes pour récupérer des lignes spécifiques des tables imbriquées. Pour obtenir des exemples, consultez Exemples de requêtes de modèle d’arbre de décision.

Parmi les types de l’énumération MiningValueType , les éléments suivants sont utilisés dans les arborescences de classification.

Type de valeur	Descriptif
1 (Manquant)	Indique un nombre, une probabilité ou une autre statistique liée aux valeurs manquantes.
4 (Discret)	Indique un nombre, une probabilité ou une autre statistique liée à une valeur discrète ou discrétisée.

Si le modèle inclut un attribut prévisible continu, l’arborescence peut également contenir des types valeur uniques aux formules de régression. Pour obtenir la liste des types valeur utilisés dans les arborescences de régression, consultez Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).

Score de nœud

Le score de nœud représente des informations légèrement différentes à chaque niveau de l’arborescence. En général, le score est une valeur numérique qui vous indique comment un fractionnement a été obtenu en fractionnant sur la condition. La valeur est représentée sous la forme d’un double, où une valeur supérieure est meilleure.

Par définition, le nœud de modèle et tous les nœuds feuilles ont un score de nœud de 0.

Pour le nœud (Tout) qui représente le haut de chaque arborescence, la colonne MSOLAP_NODE_SCORE contient le meilleur score de fractionnement dans l’arborescence entière.

Pour tous les autres nœuds de l’arborescence (à l’exception des nœuds feuilles), le score pour chaque nœud représente le meilleur score de fractionnement pour le nœud actuel, moins le score de fractionnement pour le nœud parent. En règle générale, le score de fractionnement d’un nœud parent doit toujours être meilleur que le score de fractionnement sur l’un de ses nœuds enfants. Cela est dû au fait qu’un modèle d’arbres de décision se divise idéalement sur les attributs les plus importants en premier.

Il existe de nombreuses façons de calculer un score pour un fractionnement, en fonction du paramètre d’algorithme que vous choisissez. Une discussion sur la façon dont les scores sont calculés pour chacune des méthodes de scoring dépasse la portée de cette rubrique. Pour plus d’informations, consultez « Learning Bayesian Networks : The Combination of Knowledge and Statistical Data » (Combinaison des données statistiques et des connaissances) sur le site web Microsoft Research.

Remarque

Si vous créez un modèle d’arbres de décision qui a des attributs prédictibles continus et discrets, vous verrez des scores complètement différents dans les nœuds (Tous) qui représentent chaque type d’arbre. Chaque modèle doit être considéré indépendamment et les méthodes utilisées pour la régression de scoring sont complètement différentes de celles utilisées pour la classification de scoring. Les valeurs de score de nœud ne peuvent pas être comparées.

Nœuds de régression dans un modèle d’arbre de décision

Si un modèle d’arbre de décision contient un attribut prédictible avec des données numériques continues, l’algorithme Microsoft Decision Trees recherche des zones dans les données où la relation entre l’état prédit et les variables d’entrée est linéaire. Si l’algorithme réussit à trouver une relation linéaire, il crée une arborescence spéciale (NODE_TYPE = 25) qui représente une régression linéaire. Ces nœuds d’arborescence de régression sont plus complexes que les nœuds qui représentent des valeurs discrètes.

En général, une régression mappe les changements dans la variable dépendante continue (prévisible) en fonction des modifications apportées aux entrées. Si la variable dépendante a des entrées continues et que la relation entre l’entrée et la valeur prédite est suffisamment stable pour être calculée en tant que graphique en courbes, le nœud de la régression contient une formule.

Toutefois, si la relation entre l’entrée et la valeur prédite n’est pas linéaire, un fractionnement est créé à la place, tout comme un arbre de décision standard. Par exemple, supposons que A est l’attribut prédictible, et B et C sont les entrées, où C est un type valeur continue. Si la relation entre A et C est assez stable dans certaines parties des données, mais instable dans d’autres, l’algorithme crée des fractionnements pour représenter les différentes zones des données.

Condition fractionnée	Résultat dans le nœud
si n < 5	La relation peut être exprimée sous forme d’équation 1
si n compris entre 5 et 10	Aucune équation
si n > 10	La relation peut être exprimée sous forme d’équation 2

Pour plus d’informations sur les nœuds de régression, consultez Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)

Voir aussi

Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)
Visionneuses de modèle d’exploration de données
Requêtes d’exploration de données
Algorithme d’arbres de décision Microsoft

Last updated on 2017-06-13

Partager via

Contenu du modèle d’exploration de données pour les modèles d’arbre de décision (Analysis Services - Exploration de données)

Présentation de la structure d’un modèle d’arbre de décision

Contenu du modèle pour un modèle d’arbre de décision

Remarques

Exemple de structure d’arbre de décision

Légende de nœud et description du nœud

Règle de nœud et règle marginale

Distribution de nœuds pour les attributs discrets

Nom de l’attribut et valeur d’attribut

Soutien

Probabilité

Écart

Type de valeur

Score de nœud

Nœuds de régression dans un modèle d’arbre de décision

Voir aussi

Ressources supplémentaires