Partager via


Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)

Cette rubrique décrit le contenu du modèle d’exploration de données spécifique aux modèles qui utilisent l’algorithme De régression linéaire Microsoft. Pour obtenir une explication générale du contenu du modèle d’exploration de données pour tous les types de modèles, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

Présentation de la structure d’un modèle de régression linéaire

Un modèle de régression linéaire a une structure extrêmement simple. Chaque modèle a un nœud parent unique qui représente le modèle et ses métadonnées, et un nœud d’arborescence de régression (NODE_TYPE = 25) qui contient la formule de régression pour chaque attribut prédictible.

Structure du modèle pour la régression linéaire

Les modèles de régression linéaire utilisent le même algorithme que Microsoft Decision Trees, mais différents paramètres sont utilisés pour limiter l’arborescence et seuls les attributs continus sont acceptés en tant qu’entrées. Toutefois, étant donné que les modèles de régression linéaire sont basés sur l’algorithme Microsoft Decision Trees, les modèles de régression linéaire sont affichés à l’aide de la Visionneuse d’arbre de décision Microsoft. Pour plus d'informations, consultez Parcourir un modèle à l'aide de la Visionneuse d'arborescence Microsoft.

La section suivante explique comment interpréter les informations dans le nœud de formule de régression. Ces informations s’appliquent non seulement aux modèles de régression linéaire, mais aussi aux modèles d’arbres de décision qui contiennent des régressions dans une partie de l’arbre.

Contenu du modèle pour un modèle de régression linéaire

Cette section fournit des détails et des exemples uniquement pour ces colonnes dans le contenu du modèle d’exploration de données qui ont une pertinence particulière pour la régression linéaire.

Pour plus d’informations sur les colonnes à usage général dans l’ensemble de lignes de schéma, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

CATALOGUE DE MODÈLES
Nom de la base de données où le modèle est stocké.

MODEL_NAME
Nom du modèle.

Nom_d’Attribut
Nœud racine : Blanc

Nœud de régression : Nom de l’attribut prédictible.

NODE_NAME
Toujours identique à NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Identificateur unique du nœud dans le modèle. Cette valeur ne peut pas être modifiée.

NODE_TYPE
Un modèle de régression linéaire génère les types de nœuds suivants :

ID de type de nœud Catégorie Descriptif
25 Racine de l’arborescence de régression Contient la formule qui décrit la relation entre la variable d’entrée et de sortie.

NODE_CAPTION
Étiquette ou légende associée au nœud. Cette propriété est principalement à des fins d’affichage.

Nœud racine : Blanc

Nœud de régression : Tout.

CARDINALITÉ_DES_ENFANTS
Estimation du nombre d’enfants dont dispose le nœud.

Nœud racine : Indique le nombre de nœuds de régression. Un nœud de régression est créé pour chaque attribut prédictible dans le modèle.

Nœud de régression : Toujours 0.

NOM_UNIQUE_PARENT
Nom unique du parent du nœud. NULL est retourné pour tous les nœuds au niveau racine.

DESCRIPTION_DU_NŒUD
Description du nœud.

Nœud racine : Blanc

Nœud de régression : Tout.

RÈGLE_NOEUD
Non utilisé pour les modèles de régression linéaire.

RÈGLE_MARGINALE
Non utilisé pour les modèles de régression linéaire.

PROBABILITÉ_NŒUD
Probabilité associée à ce nœud.

Nœud racine : 0

Nœud de régression : 1

PROBABILITÉ MARGINALE
Probabilité d’atteindre le nœud à partir du nœud parent.

Nœud racine : 0

Nœud de régression : 1

DISTRIBUTION_DES_NŒUDS
Table imbriquée qui fournit des statistiques sur les valeurs dans le nœud.

Nœud racine : 0

Nœud de régression : Table qui contient les éléments utilisés pour générer la formule de régression. Un nœud de régression contient les types de valeurs suivants :

TYPE DE VALEUR
1 (Manquant)
3 (en continu)
7 (Coefficient)
8 (Score gain)
9 (Statistiques)
11 (Intercept)

NODE_SUPPORT
Nombre de cas qui prennent en charge ce nœud.

Nœud racine : 0

Nœud de régression : Nombre de cas d’entraînement.

MSOLAP_MODEL_COLUMN
Nom de l’attribut prévisible.

MSOLAP_NODE_SCORE
Identique à NODE_PROBABILITY

MSOLAP_NODE_SHORT_CAPTION
Étiquette utilisée à des fins d’affichage.

Remarques

Lorsque vous créez un modèle à l’aide de l’algorithme Microsoft Linear Regression, le moteur d’exploration de données crée une instance spéciale d’un modèle d’arbre de décision et fournit des paramètres qui limitent l’arborescence pour contenir toutes les données d’apprentissage dans un seul nœud. Toutes les entrées continues sont marquées et évaluées comme des régresseurs potentiels, mais seules les régresseurs qui correspondent aux données sont conservées en tant que régresseurs dans le modèle final. L’analyse produit une formule de régression unique pour chaque régresseur ou aucune formule de régression du tout.

Vous pouvez afficher la formule de régression complète dans la legend de Mining, en cliquant sur le nœud (Tout) dans le Microsoft Tree Viewer.

En outre, lorsque vous créez un modèle d’arbre de décision qui inclut un attribut prédictible continu, l’arborescence a parfois des nœuds de régression qui partagent les propriétés des nœuds d’arborescence de régression.

Distribution des nœuds pour les attributs continus

La plupart des informations importantes dans un nœud de régression sont contenues dans la table NODE_DISTRIBUTION. L’exemple suivant illustre la disposition de la table NODE_DISTRIBUTION. Dans cet exemple, la structure d’exploration de données ciblée a été utilisée pour créer un modèle de régression linéaire qui prédit le revenu des clients en fonction de l’âge. Le modèle est destiné uniquement à l’illustration, car il peut être créé facilement à l’aide de l’exemple de données AdventureWorks2012 existant et de la structure d’exploration de données.

ATTRIBUTE_NAME ATTRIBUTE_VALUE SOUTIEN PROBABILITÉ VARIANCE TYPE DE VALEUR
Revenu annuel Manquant 0 0.000457142857142857 0 1
Revenu annuel 57220.8876687257 17484 0,999542857142857 1041275619.52776 3
Âge 471.687717702463 0 0 126.969442359327 7
Âge 234,680904692439 0 0 0 8
Âge 45.4269617936399 0 0 126.969442359327 9
35793.5477381267 0 0 1012968919.28372 11

La table NODE_DISTRIBUTION contient plusieurs lignes, chacune groupée par une variable. Les deux premières lignes sont toujours des types valeur 1 et 3, et décrivent l’attribut cible. Les lignes suivantes fournissent des détails sur la formule d’un régresseur particulier. Un régresseur est une variable d’entrée qui a une relation linéaire avec la variable de sortie. Vous pouvez avoir plusieurs régresseurs, et chaque régresseur aura une ligne distincte pour le coefficient (VALUETYPE = 7), le gain de score (VALUETYPE = 8) et les statistiques (VALUETYPE = 9). Enfin, la table a une ligne qui contient l’interception de l’équation (VALUETYPE = 11).

Éléments de la formule de régression

La table NODE_DISTRIBUTION imbriquée contient chaque élément de la formule de régression dans une ligne distincte. Les deux premières lignes de données de l’exemple de résultats contiennent des informations sur l’attribut prévisible, Le revenu annuel, qui modélise la variable dépendante. La colonne SUPPORT indique le nombre de cas à l’appui des deux états de cet attribut : une valeur de revenu annuel a été disponible ou la valeur du revenu annuel est manquante.

La colonne VARIANCE vous indique la variance calculée de l’attribut prédictible. La variance est une mesure de la façon dont les valeurs sont dispersées dans un échantillon, en fonction d’une distribution attendue. La variance est calculée ici en prenant la moyenne de l’écart carré par rapport à la moyenne. La racine carrée de la variance est également appelée écart type. Analysis Services ne fournit pas l’écart type, mais vous pouvez facilement le calculer.

Pour chaque régresseur, trois lignes sont en sortie. Ils contiennent le coefficient, le gain de score et les statistiques de régresseur.

Enfin, la table contient une ligne qui fournit l’intercept pour l’équation.

Coefficient

Pour chaque régresseur, un coefficient (VALUETYPE = 7) est calculé. Le coefficient lui-même apparaît dans la colonne ATTRIBUTE_VALUE, tandis que la colonne VARIANCE vous indique la variance du coefficient. Les coefficients sont calculés afin d’optimiser la linéarité.

Gain de score

Le gain de score (VALUETYPE = 8) pour chaque régresseur représente le score d’intérêt de l’attribut. Vous pouvez utiliser cette valeur pour estimer l’utilité de plusieurs régresseurs.

Statistiques

La statistique de régresseur (VALUETYPE = 9) est la moyenne de l’attribut pour les cas qui ont une valeur. La colonne ATTRIBUTE_VALUE contient la moyenne elle-même, tandis que la colonne VARIANCE contient la somme des écarts par rapport à la moyenne.

Intercepter

Normalement, l’interception (VALUETYPE = 11) ou résiduelle dans une équation de régression vous indique la valeur de l’attribut prédictible, au point où l’attribut d’entrée est 0. Dans de nombreux cas, cela peut ne pas se produire et peut entraîner des résultats contre-intuitifs.

Par exemple, dans un modèle qui prédit le revenu basé sur l’âge, il est inutile d’apprendre le revenu à l’âge de 0 ans. En réalité, il est généralement plus utile de connaître le comportement de la ligne par rapport aux valeurs moyennes. Par conséquent, SQL Server Analysis Services modifie l’intercept pour exprimer chaque régresseur dans une relation avec la moyenne.

Cet ajustement est difficile à voir dans le contenu du modèle d’exploration de données, mais il est évident que vous affichez l’équation terminée dans la légende d’exploration de données de la visionneuse d’arborescences Microsoft. La formule de régression est décalée du point 0 au point qui représente la moyenne. Cela présente une vue plus intuitive en fonction des données actuelles.

Par conséquent, en supposant que l’âge moyen est d’environ 45 ans, l’intercept (VALUETYPE = 11) pour la formule de régression vous indique le revenu moyen.

Voir aussi

Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)
Algorithme de régression linéaire Microsoft
Informations techniques de référence sur l’algorithme de régression linéaire Microsoft
Exemples de requête de modèle de régression linéaire