Méthodes de discrétisation (exploration de données)

Certains algorithmes utilisés pour créer des modèles d’exploration de données dans SQL Server Analysis Services nécessitent des types de contenu spécifiques pour fonctionner correctement. Par exemple, l’algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée et ne peut pas prédire des valeurs continues. En outre, certaines colonnes peuvent contenir autant de valeurs que l’algorithme ne peut pas facilement identifier des modèles intéressants dans les données à partir desquels créer un modèle.

Dans ces cas, vous pouvez discrétiser les données dans les colonnes pour permettre l’utilisation des algorithmes pour produire un modèle d’exploration de données. La discrétisation est le processus de placement de valeurs dans des compartiments afin qu’il existe un nombre limité d’états possibles. Les compartiments eux-mêmes sont traités comme des valeurs ordonnées et discrètes. Vous pouvez discrétiser à la fois les colonnes numériques et de chaînes.

Il existe plusieurs méthodes que vous pouvez utiliser pour discrétiser les données. Si votre solution d’exploration de données utilise des données relationnelles, vous pouvez contrôler le nombre de compartiments à utiliser pour regrouper les données en définissant la valeur de la DiscretizationBucketCount propriété. Le nombre par défaut de compartiments est 5.

Si votre solution d’exploration de données utilise des données à partir d’un cube OLAP (Online Analytical Processing), l’algorithme d’exploration de données calcule automatiquement le nombre de compartiments à générer à l’aide de l’équation suivante, où n correspond au nombre de valeurs distinctes de données dans la colonne :

Number of Buckets = sqrt(n)

Si vous ne souhaitez pas que Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la DiscretizationBucketCount propriété pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser les données dans Analysis Services.

Méthode de discrétisation	Descriptif
`AUTOMATIC`	Analysis Services détermine la méthode de discrétisation à utiliser.
`CLUSTERS`	L’algorithme divise les données en groupes en échantillonnant les données d’apprentissage, en initialisant un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l’algorithme De clustering Microsoft à l’aide de la méthode d’optimisation des attentes (EM). La `CLUSTERS` méthode est utile, car elle fonctionne sur n’importe quelle courbe de distribution. Toutefois, il nécessite plus de temps de traitement que les autres méthodes de discrétisation. Cette méthode ne peut être utilisée qu’avec des colonnes numériques.
`EQUAL_AREAS`	L’algorithme divise les données en groupes qui contiennent un nombre égal de valeurs. Cette méthode est mieux utilisée pour les courbes de distribution normales, mais ne fonctionne pas correctement si la distribution inclut un grand nombre de valeurs qui se produisent dans un groupe étroit dans les données continues. Par exemple, si une moitié des éléments ont un coût de 0, une moitié des données se produit sous un point unique dans la courbe. Dans une telle distribution, cette méthode décompose les données dans un effort pour établir une discrétisation égale dans plusieurs zones. Cela produit une représentation inexacte des données.

Remarques

Vous pouvez utiliser la EQUAL_AREAS méthode pour discrétiser les chaînes.
La CLUSTERS méthode utilise un échantillon aléatoire de 1 000 enregistrements pour discrétiser les données. Utilisez la EQUAL_AREAS méthode si vous ne souhaitez pas que l’algorithme échantillonner des données.
Le didacticiel sur le modèle d’exploration de données de réseau neuronal fournit un exemple de la façon dont la discrétisation peut être personnalisée. Pour plus d’informations, consultez la leçon 5 : Création de modèles de réseau neuronal et de régression logistique (didacticiel sur l’exploration de données intermédiaire)

Voir aussi

Types de contenu (exploration de données)
Types de contenu (DMX)
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Structures d’exploration de données (Analysis Services - Exploration de données)
Types de données (exploration de données)
Colonnes de structure d'exploration de données
Distributions de colonnes (exploration de données)

Last updated on 2017-03-06

Partager via

Méthodes de discrétisation (exploration de données)

Remarques

Voir aussi

Ressources supplémentaires