Partager via


Contenu du modèle d’exploration de données pour les modèles de clustering (Analysis Services - Exploration de données)

Cette rubrique décrit le contenu des modèles d'exploration de données spécifiques aux modèles qui utilisent l'algorithme de clustering de Microsoft. Pour obtenir une explication générale du contenu du modèle d’exploration de données pour tous les types de modèles, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

Présentation de la structure d’un modèle de clustering

Un modèle de clustering a une structure simple. Chaque modèle a un nœud parent unique qui représente le modèle et ses métadonnées, et chaque nœud parent a une liste plate de clusters (NODE_TYPE = 5). Cette organisation est illustrée dans l’image suivante.

structure du contenu du modèle pour le clustering

Chaque nœud enfant représente un seul cluster et contient des statistiques détaillées sur les attributs des cas dans ce cluster. Cela inclut le nombre de cas dans le cluster et la distribution des valeurs qui distinguent le cluster des autres clusters.

Remarque

Vous n’avez pas besoin d’itérer au sein des nœuds pour obtenir un nombre ou une description des clusters ; le nœud parent du modèle compte également et répertorie les clusters.

Le nœud parent contient des statistiques utiles qui décrivent la distribution réelle de tous les cas d’entraînement. Ces statistiques se trouvent dans la colonne de table imbriquée NODE_DISTRIBUTION. Par exemple, le tableau suivant présente plusieurs lignes de la table NODE_DISTRIBUTION qui décrivent la distribution des données démographiques des clients pour le modèle de clustering, TM_Clusteringque vous créez dans le didacticiel d’exploration de données de base :

ATTRIBUTE_NAME ATRIBUTE_VALUE SOUTIEN PROBABILITÉ VARIANCE VALUE_TYPE
Âge Manquant 0 0 0 1 (Manquant)
Âge 44.9016152716593 12939 1 125.663453102554 3 (en continu)
Sexe Manquant 0 0 0 1 (Manquant)
Sexe F 6350 0.490764355823479 0 4 (Discret)
Sexe M 6589 0.509235644176521 0 4 (Discret)

À partir de ces résultats, vous pouvez voir qu’il y avait 12939 cas utilisés pour construire le modèle, que le ratio hommes-femmes était d’environ 50 à 50, et que l’âge moyen était de 44. Les statistiques descriptives varient selon que l’attribut signalé est un type de données numérique continu, tel que l’âge ou un type de valeur discret, tel que le sexe. Les mesures statistiques moyennes et variances sont calculées pour les types de données continus, tandis que la probabilité et la prise en charge sont calculées pour les types de données discrets.

Remarque

La variance représente la variance totale pour le cluster. Lorsque la valeur de la variance est faible, il indique que la plupart des valeurs de la colonne étaient relativement proches de la moyenne. Pour obtenir l’écart type, calculez la racine carrée de la variance.

Notez que pour chacun des attributs, il existe un Missing type valeur qui vous indique le nombre de cas qui n’ont pas de données pour cet attribut. Les données manquantes peuvent être significatives et affectent les calculs de différentes façons, en fonction du type de données. Pour plus d’informations, consultez Valeurs manquantes (Analysis Services - Exploration de données).

Contenu du modèle pour un modèle de clustering

Cette section fournit des détails et des exemples uniquement pour les colonnes spécifiques du contenu du modèle d’exploration de données qui sont pertinentes pour les modèles de clustering.

Pour plus d’informations sur les colonnes à usage général dans l’ensemble de lignes de schéma, telles que MODEL_CATALOG et MODEL_NAME, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

MODEL_CATALOG
Nom de la base de données où le modèle est stocké.

MODEL_NAME
Nom du modèle.

NOM_D'ATTRIBUT
Toujours vide dans les modèles de clustering, car il n’existe aucun attribut prévisible dans le mode.

NODE_NAME
Toujours identique à NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Identificateur unique du nœud dans le modèle. Cette valeur ne peut pas être modifiée.

NODE_TYPE
Un modèle de clustering génère les types de nœuds suivants :

ID de nœud et nom Descriptif
1 (Modèle) Nœud racine du modèle.
5 (cluster) Contient le nombre de cas dans le cluster, les caractéristiques des cas dans le cluster et les statistiques qui décrivent les valeurs du cluster.

NODE_CAPTION
Nom convivial à des fins d’affichage. Lorsque vous créez un modèle, la valeur de NODE_UNIQUE_NAME est automatiquement utilisée comme légende. Toutefois, vous pouvez modifier la valeur de NODE_CAPTION pour mettre à jour le nom complet du cluster, par programmation ou à l’aide de la visionneuse.

Remarque

Lorsque vous retraitez le modèle, toutes les modifications de nom sont remplacées par les nouvelles valeurs. Vous ne pouvez pas conserver les noms dans le modèle ou suivre les modifications apportées à l’appartenance au cluster entre différentes versions d’un modèle.

CARDINALITÉ_DES_ENFANTS
Estimation du nombre d’enfants dont dispose le nœud.

Nœud parent Indique le nombre de clusters dans le modèle.

Nœuds de cluster Toujours 0.

PARENT_UNIQUE_NAME
Nom unique du parent du nœud.

Nœud parent Toujours NULL

Nœuds de cluster Habituellement 000.

DESCRIPTION_DU_NŒUD
Description du nœud.

Nœud parent Toujours (Tout).

Nœuds de cluster Liste séparée par des virgules des attributs principaux qui distinguent le cluster d’autres clusters.

RÈGLE_NOEUD
Non utilisé pour les modèles de clustering.

RÈGLE_MARGINALE
Non utilisé pour les modèles de clustering.

PROBABILITÉ_NŒUD
Probabilité associée à ce nœud. Nœud parent Toujours 1.

Nœuds de cluster La probabilité représente la probabilité composée des attributs, avec quelques ajustements en fonction de l’algorithme utilisé pour créer le modèle de clustering.

PROBABILITÉ MARGINALE
Probabilité d’atteindre le nœud à partir du nœud parent. Dans un modèle de clustering, la probabilité marginale est toujours la même que la probabilité de nœud.

DISTRIBUTION_DES_NŒUDS
Table qui contient l’histogramme de probabilité du nœud.

Nœud parent Consultez l’introduction à cette rubrique.

Nœuds de cluster Représente la distribution des attributs et des valeurs pour les cas inclus dans ce cluster.

NODE_SUPPORT
Nombre de cas qui prennent en charge ce nœud. Nœud parent Indique le nombre de cas d’entraînement pour l’ensemble du modèle.

Nœuds de cluster Indique la taille du cluster sous la forme d’un certain nombre de cas.

Note Si le modèle utilise le clustering K-Moyennes, chaque cas ne peut appartenir qu’à un seul cluster. Toutefois, si le modèle utilise le clustering EM, chaque cas peut appartenir à un cluster différent et le cas est affecté à une distance pondérée pour chaque cluster auquel il appartient. Par conséquent, pour les modèles EM, la somme de la prise en charge d’un cluster individuel est supérieure à la prise en charge du modèle global.

MSOLAP_MODEL_COLUMN
Non utilisé pour les modèles de clustering.

MSOLAP_NODE_SCORE
Affiche un score associé au nœud.

Nœud parent Score BIC (Critère d'information bayésien) pour le modèle de regroupement.

Nœuds de cluster Toujours 0.

MSOLAP_NODE_SHORT_CAPTION
Étiquette utilisée à des fins d’affichage. Vous ne pouvez pas modifier cette légende.

Nœud parent Type de modèle : modèle de cluster

Nœuds de cluster Nom du cluster. Exemple : cluster 1.

Remarques

Analysis Services fournit plusieurs méthodes pour créer un modèle de clustering. Si vous ne savez pas quelle méthode a été utilisée pour créer le modèle que vous utilisez, vous pouvez récupérer les métadonnées du modèle par programmation, à l’aide d’un client ADOMD ou d’AMO, ou en interrogeant l’ensemble de lignes de schéma d’exploration de données. Pour plus d’informations, consultez Interroger les paramètres utilisés pour créer un modèle d’exploration de données.

Remarque

La structure et le contenu du modèle restent les mêmes, quelle que soit la méthode de clustering ou les paramètres que vous utilisez.

Voir aussi

Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)
Visionneuses de modèle d’exploration de données
Algorithme de regroupement Microsoft
Requêtes d’exploration de données