Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Une structure d’exploration de données est destinée à prendre en charge plusieurs modèles d’exploration de données. Par conséquent, une fois l’Assistant terminé, vous pouvez ouvrir la structure et ajouter de nouveaux modèles d’exploration de données. Chaque fois que vous créez un modèle, vous pouvez utiliser un algorithme différent, modifier les paramètres ou appliquer des filtres pour utiliser un sous-ensemble différent des données.
Ajout de nouveaux modèles d’exploration de données
Lorsque vous utilisez l’Assistant Exploration de données pour créer un modèle d’exploration de données, par défaut, vous devez toujours créer une structure d’exploration de données en premier. L'Assistant vous offre ensuite la possibilité d'ajouter un modèle initial d'exploration de données à la structure. Toutefois, vous n’avez pas besoin de créer immédiatement un modèle. Si vous créez la structure uniquement, vous n’avez pas besoin de prendre une décision sur la colonne à utiliser comme attribut prédictible ou sur l’utilisation des données dans un modèle particulier. Au lieu de cela, vous configurez simplement la structure de données générale que vous souhaitez utiliser ultérieurement, puis vous pouvez utiliser le Concepteur d’exploration de données pour ajouter de nouveaux modèles d’exploration de données basés sur la structure.
Remarque
Dans DMX, l’instruction CREATE MINING MODEL commence par le modèle d’exploration de données. Autrement dit, vous définissez votre choix de modèle d’exploration de données et Analysis Services génère automatiquement la structure sous-jacente. Plus tard, vous pouvez continuer à ajouter de nouveaux modèles d’exploration de données à cette structure, en utilisant l'instruction ALTER STRUCTURE... ADD MODEL.
Choix d’un algorithme
Lorsque vous ajoutez un nouveau modèle à une structure existante, la première chose à faire est de sélectionner un algorithme d’exploration de données à utiliser dans ce modèle. Le choix de l’algorithme est important, car chaque algorithme effectue un type d’analyse différent et a des exigences différentes.
Lorsque vous sélectionnez un algorithme incompatible avec vos données, vous recevez un avertissement. Dans certains cas, vous devrez peut-être ignorer les colonnes qui ne peuvent pas être traitées par l’algorithme. Dans d’autres cas, l’algorithme effectue automatiquement les ajustements pour vous. Par exemple, si votre structure contient des données numériques et que l’algorithme ne peut fonctionner qu’avec des valeurs discrètes, il regroupe les valeurs numériques en plages discrètes pour vous. Dans certains cas, vous devrez peut-être corriger manuellement les données en choisissant une clé ou en choisissant un attribut prévisible.
Vous n’avez pas besoin de modifier l’algorithme lorsque vous créez un modèle. Souvent, vous pouvez obtenir des résultats très différents en utilisant le même algorithme, mais en filtrant les données, ou en modifiant un paramètre tel que la méthode de clustering ou la taille minimale de l’ensemble d’éléments. Nous vous recommandons d’expérimenter plusieurs modèles pour voir quels paramètres produisent les meilleurs résultats.
Notez que tous les nouveaux modèles doivent être traités avant de pouvoir les utiliser.
Spécification de l’utilisation des colonnes dans un nouveau modèle d’exploration de données
Lorsque vous ajoutez de nouveaux modèles d’exploration de données à une structure d’exploration de données existante, vous devez spécifier la façon dont chaque colonne de données doit être utilisée par le modèle. Selon le type d’algorithme que vous choisissez pour le modèle, certains de ces choix peuvent être effectués par défaut. Si vous ne spécifiez pas de type d’utilisation pour une colonne, la colonne ne sera pas incluse dans la structure d’exploration de données. Toutefois, les données de la colonne peuvent toujours être disponibles pour l'analyse détaillée, si le modèle le prend en charge.
Les colonnes de la structure d’exploration de données utilisées par le modèle (si elles ne sont pas définies sur Ignorer) doivent être une clé, une colonne d’entrée, une colonne prédictible ou une colonne prédictible dont les valeurs sont également utilisées comme entrées du modèle.
Les colonnes clés contiennent un identificateur unique pour chaque ligne d’une table. Certains modèles d’exploration de données, tels que ceux basés sur le clustering séquentiel ou les algorithmes de série chronologique, peuvent contenir plusieurs colonnes clés. Toutefois, ces plusieurs clés ne sont pas des clés composées dans le sens relationnel, mais elles doivent être sélectionnées pour prendre en charge les séries chronologiques et l’analyse du clustering de séquences.
Les colonnes d'entrée fournissent les informations à partir desquelles les prédictions sont faites. L’Assistant Exploration de données fournit la fonctionnalité Suggérer , qui est activée lorsque vous sélectionnez une colonne prévisible. Si vous cliquez sur ce bouton, l’assistant va échantillonner les valeurs prévisibles et déterminer quelles autres colonnes de la structure constituent de bonnes variables. Il rejette les colonnes clés ou d’autres colonnes avec de nombreuses valeurs uniques et suggère des colonnes qui semblent être corrélées avec le résultat.
Cette fonctionnalité est particulièrement pratique lorsque les jeux de données contiennent plus de colonnes que vous n’avez vraiment besoin de créer un modèle d’exploration de données. La fonctionnalité Suggest calcule un score numérique compris entre 0 et 1, qui décrit la relation entre chaque colonne du jeu de données et la colonne prévisible. En fonction de ce score, la fonctionnalité suggère des colonnes à utiliser comme entrée pour le modèle d’exploration de données. Si vous utilisez la fonctionnalité Suggérer , vous pouvez utiliser les colonnes suggérées, modifier les sélections en fonction de vos besoins ou ignorer les suggestions.
Les colonnes prévisibles de données contiennent les informations que vous essayez de prédire dans le modèle d’exploration de données. Vous pouvez sélectionner plusieurs colonnes comme attributs prévisibles. Les modèles de clustering sont l’exception dans laquelle un attribut prédictible est facultatif.
Selon le type de modèle, la colonne prédictible peut être un type de données spécifique : par exemple, un modèle de régression linéaire nécessite une colonne numérique comme valeur prédite ; L’algorithme Naïve Bayes nécessite une valeur discrète (et toutes les entrées doivent également être discrètes).
Spécification du contenu de colonne
Pour certaines colonnes, vous devrez peut-être également spécifier le contenu de colonne. Dans l’exploration de données SQL Server, la propriété Type de contenu de chaque colonne de données indique à l’algorithme comment il doit traiter les données de cette colonne. Par exemple, si vos données ont une colonne Revenu, vous devez spécifier que la colonne contient des nombres continus en définissant le type de contenu sur Continu. Toutefois, vous pouvez également spécifier que les nombres de la colonne Revenu doivent être regroupés en compartiments en définissant le type de contenu sur Discrétisé et éventuellement en spécifiant le nombre exact de compartiments. Vous pouvez créer différents modèles qui gèrent les colonnes différemment : par exemple, vous pouvez essayer un modèle qui regroupe les clients en trois groupes d’âge et un autre modèle qui regroupe les clients en 10 groupes d’âge.
Voir aussi
Structures d’exploration de données (Analysis Services - Exploration de données)
Créer une structure d’exploration de données relationnelle
Propriétés du modèle d’exploration de données
Colonnes du modèle d’exploration de données