Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
L’Assistant Exploration de données dans Microsoft SQL Server Analysis Services démarre chaque fois que vous ajoutez une nouvelle structure d’exploration de données à un projet d’exploration de données. L’Assistant vous aide à choisir une source de données et à configurer une vue de source de données qui définit les données à utiliser pour l’analyse, puis vous aide à créer un modèle initial.
Dans la dernière phase de l’Assistant, vous pouvez éventuellement diviser vos données en ensembles d’entraînement et de test, et activer des fonctionnalités telles que le drillthrough.
Que savoir avant de commencer
Voici les éléments à connaître avant de démarrer l’Assistant.
Allez-vous créer la structure et les modèles d’exploration de données à partir d’une base de données relationnelle ou d’un cube existant dans une base de données OLAP ?
Quelles colonnes contiennent les clés qui identifient de façon unique un enregistrement de cas ?
Quelles colonnes ou attributs souhaitez-vous utiliser pour la prédiction ? Quelles colonnes ou attributs sont utilisables comme entrée pour l’analyse ?
Quel algorithme devez-vous utiliser ? Les algorithmes fournis dans SQL Server Analysis Services présentent toutes des caractéristiques différentes et produisent des résultats différents. Heureusement, vous n’êtes pas limité à un modèle pour chaque jeu de données. N’hésitez donc pas à expérimenter en ajoutant différents modèles.
Devez-vous pouvoir tester vos modèles sur un jeu de données unifié ? Si c’est le cas, envisagez d’utiliser l’option permettant de définir certaines données de côté pour les tests. Vous pouvez choisir un pourcentage et le limiter par un nombre spécifié de lignes si vous le souhaitez.
Démarrage de l’Assistant Exploration de données
Pour utiliser l’Assistant Exploration de données, vous devez avoir ouvert une solution dans SQL Server Data Tools (SSDT) qui contient au moins un projet OLAP ou d’exploration de données.
Si votre solution est prête pour l’exploration de données, vous pouvez simplement cliquer avec le bouton droit sur le nœud Structures d’exploration de données dans l’Explorateur de solutions et sélectionner Nouvelle structure d’exploration de données pour démarrer l’Assistant.
Si votre solution ne contient aucun projet existant, vous pouvez ajouter un nouveau projet d’exploration de données. Dans le menu Fichier , sélectionnez Nouveau, puis Projet. Veillez à choisir le modèle, Analysis Services Multidimensional and Data Mining Project.
Vous pouvez également utiliser l’Assistant d'importation des Analysis Services pour obtenir des métadonnées à partir d’une solution d’exploration de données existante. Toutefois, vous ne pouvez pas sélectionner les objets individuels à importer ; la base de données entière est importée, y compris les cubes, les vues de source de données, etc. Notez également que la nouvelle solution créée via l’importation est automatiquement configurée pour utiliser la base de données locale par défaut. Vous devrez peut-être passer à une autre instance avant de pouvoir traiter ou parcourir les objets et, si vous importez à partir d’une version précédente d’Analysis Services, vous devrez peut-être mettre à jour les références aux fournisseurs.
Ensuite, vous allez créer la structure d’exploration de données et un modèle d’exploration de données associé. Vous pouvez également créer uniquement la structure d’exploration de données et ajouter des modèles ultérieurement, mais il est généralement plus simple de créer un modèle de test en premier.
Modèles d’exploration de données relationnelles et OLAP
L’option importante suivante que vous avez consiste à utiliser une source de données relationnelle ou à baser votre modèle sur des données multidimensionnelles (OLAP).
L’Assistant Exploration de données se divise en deux voies à ce stade, selon que votre source de données est relationnelle ou en cube. Tout le reste, sauf le processus de sélection des données, reste le même - le choix d'algorithme, la possibilité d'ajouter un ensemble de données de validation, etc. - mais la sélection des données de cubes est un peu plus complexe que l'utilisation de données relationnelles. (Vous obtenez également des options supplémentaires à la fin si vous créez un modèle basé sur un cube.)
Consultez les sujets suivants pour un examen détaillé de chaque option :
Créer une structure d’exploration de données relationnelle
Vous guide tout au long des décisions que vous prenez lors de la création d’un modèle d’exploration de données relationnelle.
Créer une structure d’exploration de données OLAP
Décrit les options et sélections supplémentaires à effectuer lors du choix de données à partir d’un cube OLAP.
Remarque
Vous n’avez pas besoin d’avoir un cube ou une base de données OLAP pour effectuer une exploration de données. À moins que vos données ne soient déjà stockées dans un cube, ou que vous souhaitez miner des dimensions OLAP ou les résultats des agrégations ou des calculs OLAP, nous vous recommandons d’utiliser une table relationnelle ou une source de données pour l’exploration de données.
Choix d’un algorithme
Ensuite, vous devez décider de l’algorithme à utiliser pour traiter vos données. Cette décision peut être difficile à prendre. Chaque algorithme fourni dans Analysis Services dispose de différentes fonctionnalités et produit des résultats différents. Vous pouvez donc expérimenter et essayer plusieurs modèles différents avant de déterminer ce qui convient le mieux à vos données et à votre problème métier. Consultez la rubrique suivante pour obtenir une explication des tâches auxquelles chaque algorithme convient le mieux :
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Là encore, vous pouvez créer plusieurs modèles à l’aide d’algorithmes différents ou modifier des paramètres pour les algorithmes afin de créer différents modèles. Vous n’êtes pas verrouillé dans votre choix d’algorithme, et il est recommandé de créer plusieurs modèles différents sur les mêmes données.
Définir les données utilisées pour la modélisation
En plus de choisir les données d’une source, vous devez spécifier la table dans la vue de source de données qui contient les données de cas. La table de cas est utilisée pour entraîner le modèle d’exploration de données et, par conséquent, doit contenir les entités que vous souhaitez analyser : par exemple, les clients et leurs informations démographiques. Chaque cas doit être unique et doit être identifiable par une clé de cas.
Outre la spécification de la table de cas, vous pouvez inclure des tables imbriquées dans vos données. Une table imbriquée contient généralement des informations supplémentaires sur les entités de la table de cas, telles que les transactions effectuées par le client ou les attributs qui ont une relation plusieurs-à-un avec l’entité. Par exemple, une table imbriquée jointe à la table de cas Customers peut inclure une liste de produits achetés par chaque client. Dans un modèle qui analyse le trafic vers un site Web, la table imbriquée peut inclure les séquences de pages que l’utilisateur a visitées. Pour plus d’informations, consultez Tables imbriquées (Analysis Services - Exploration de données)
Fonctionnalités supplémentaires
Pour vous aider à choisir les données appropriées et à configurer correctement les sources de données, l’Assistant Exploration de données fournit ces fonctionnalités supplémentaires :
Détermination automatique -detection des types de données : l’Assistant examine l’unicité et la distribution des valeurs de colonne, puis recommande le meilleur type de données et suggère un type d'usage pour les données. Vous pouvez remplacer ces suggestions en sélectionnant des valeurs dans une liste.
Suggestions de variables : vous pouvez cliquer sur une boîte de dialogue et démarrer un analyseur qui calcule les corrélations entre les colonnes incluses dans le modèle et détermine si les colonnes sont susceptibles de prédire l’attribut de résultat, en fonction de la configuration du modèle jusqu’à présent. Vous pouvez remplacer ces suggestions en tapant différentes valeurs.
Sélection des caractéristiques : la plupart des algorithmes détectent automatiquement les colonnes qui sont de bons prédicteurs et utilisent celles de manière privilégiée. Dans les colonnes qui contiennent trop de valeurs, la sélection des caractéristiques sera appliquée, afin de réduire la cardinalité des données et d’améliorer les chances de trouver un modèle significatif. Vous pouvez affecter le comportement de sélection des fonctionnalités à l’aide de paramètres de modèle.
Découpage automatique du cube : si votre modèle d’exploration de données est basé sur une source de données OLAP, la possibilité de découper le modèle à l’aide d’attributs de cube est automatiquement fournie. Cela est pratique pour créer des modèles basés sur des sous-ensembles de données du cube.
Compléter l'Assistant
La dernière étape de l’Assistant consiste à nommer la structure d’exploration de données et le modèle d’exploration de données associé. Selon le type de modèle que vous avez créé, vous pouvez également avoir les options importantes suivantes :
Si vous sélectionnez Autoriser l’extraction, la possibilité d’extraction est activée dans le modèle. Avec l'exploration approfondie, les utilisateurs disposant des autorisations appropriées peuvent explorer les données sources utilisées pour générer le modèle.
Si vous créez un modèle OLAP, vous pouvez sélectionner les options, créer un cube d’exploration de donnéesou créer une dimension d’exploration de données. Ces deux options facilitent la navigation dans le modèle terminé et l’exploration des données sous-jacentes.
Une fois que vous avez terminé l’Assistant Exploration de données, vous utilisez le Concepteur d’exploration de données pour modifier la structure et les modèles d'exploration de données, pour afficher la précision du modèle, visualiser les caractéristiques de la structure et des modèles, ou effectuer des prédictions en utilisant les modèles.
Contenu associé
Pour en savoir plus sur les décisions que vous devez prendre lors de la création d’un modèle d’exploration de données, consultez les liens suivants :
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Types de contenu (exploration de données)
Types de données (exploration de données)
Sélection des fonctionnalités (exploration de données)
Valeurs manquantes (Analysis Services - Exploration de données)
Analyse de modèles de forage de données
Voir aussi
Outils d’exploration de données
Solutions d’exploration de données