Partager via


Méthodes de discrétisation (exploration de données)

Certains algorithmes utilisés pour créer des modèles d’exploration de données dans SQL Server Analysis Services nécessitent des types de contenu spécifiques pour fonctionner correctement. Par exemple, l’algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée et ne peut pas prédire des valeurs continues. En outre, certaines colonnes peuvent contenir autant de valeurs que l’algorithme ne peut pas facilement identifier des modèles intéressants dans les données à partir desquels créer un modèle.

Dans ces cas, vous pouvez discrétiser les données dans les colonnes pour permettre l’utilisation des algorithmes pour produire un modèle d’exploration de données. La discrétisation est le processus de placement de valeurs dans des compartiments afin qu’il existe un nombre limité d’états possibles. Les compartiments eux-mêmes sont traités comme des valeurs ordonnées et discrètes. Vous pouvez discrétiser à la fois les colonnes numériques et de chaînes.

Il existe plusieurs méthodes que vous pouvez utiliser pour discrétiser les données. Si votre solution d’exploration de données utilise des données relationnelles, vous pouvez contrôler le nombre de compartiments à utiliser pour regrouper les données en définissant la valeur de la DiscretizationBucketCount propriété. Le nombre par défaut de compartiments est 5.

Si votre solution d’exploration de données utilise des données à partir d’un cube OLAP (Online Analytical Processing), l’algorithme d’exploration de données calcule automatiquement le nombre de compartiments à générer à l’aide de l’équation suivante, où n correspond au nombre de valeurs distinctes de données dans la colonne :

Number of Buckets = sqrt(n)

Si vous ne souhaitez pas que Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la DiscretizationBucketCount propriété pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser les données dans Analysis Services.

Méthode de discrétisation Descriptif
AUTOMATIC Analysis Services détermine la méthode de discrétisation à utiliser.
CLUSTERS L’algorithme divise les données en groupes en échantillonnant les données d’apprentissage, en initialisant un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l’algorithme De clustering Microsoft à l’aide de la méthode d’optimisation des attentes (EM). La CLUSTERS méthode est utile, car elle fonctionne sur n’importe quelle courbe de distribution. Toutefois, il nécessite plus de temps de traitement que les autres méthodes de discrétisation.

Cette méthode ne peut être utilisée qu’avec des colonnes numériques.
EQUAL_AREAS L’algorithme divise les données en groupes qui contiennent un nombre égal de valeurs. Cette méthode est mieux utilisée pour les courbes de distribution normales, mais ne fonctionne pas correctement si la distribution inclut un grand nombre de valeurs qui se produisent dans un groupe étroit dans les données continues. Par exemple, si une moitié des éléments ont un coût de 0, une moitié des données se produit sous un point unique dans la courbe. Dans une telle distribution, cette méthode décompose les données dans un effort pour établir une discrétisation égale dans plusieurs zones. Cela produit une représentation inexacte des données.

Remarques

Voir aussi

Types de contenu (exploration de données)
Types de contenu (DMX)
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Structures d’exploration de données (Analysis Services - Exploration de données)
Types de données (exploration de données)
Colonnes de structure d'exploration de données
Distributions de colonnes (exploration de données)