Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Il existe de nombreux avantages pour créer un modèle d’exploration de données basé sur un cube OLAP ou un autre magasin de données multidimensionnel. Une solution OLAP contient déjà d’énormes quantités de données bien organisées, nettoyées et correctement mises en forme ; Toutefois, la complexité des données est telle que les utilisateurs ne sont pas susceptibles de trouver des modèles significatifs par l’exploration ad hoc. L’exploration de données offre la possibilité de découvrir de nouvelles corrélations et de fournir des insights exploitables.
Cette rubrique explique comment créer une structure d’exploration de données OLAP, basée sur une dimension et des mesures associées dans une solution multidimensionnelle existante.
Vue d’ensemble du processus d’exploration de données OLAP
Scénarios d’utilisation de l’exploration de données dans les solutions OLAP
Utilisation de tables imbriquées
Dimensions d’exploration de données
Configuration requise pour la structure et les modèles d’exploration de données OLAP
Si vous concevez un modèle d’exploration de données OLAP, votre source de données existe déjà, dans la base de données utilisée pour générer le cube. Vous ne pouvez pas vous connecter à un cube distant et générer des objets d’exploration de données ; les objets de cube doivent être disponibles dans la même solution que la base de données que la structure d’exploration de données que vous allez générer.
Si vous n’avez pas les fichiers projet d’origine ou si vous ne souhaitez pas les modifier, vous pouvez utiliser l’option dans Visual Studio, Importer à partir du serveur (multidimensionnel ou exploration de données) pour obtenir une copie des métadonnées et des objets de solution. Vous pouvez ensuite modifier la cible de déploiement, modifier les sources de données et utiliser les objets de cube sans affecter les objets existants.
Pour plus d’informations, consultez Importer un projet d’exploration de données à l’aide de l’Assistant Importation Analysis Services.
Vue d’ensemble du processus d’exploration de données OLAP
Démarrez l’Assistant Exploration de données en cliquant avec le bouton droit sur le nœud Structures d’exploration de données dans l’Explorateur de solutions, puis en sélectionnant Nouvelle structure d’exploration de données. L'assistant vous guide à travers les étapes suivantes pour créer l'ossature d'une nouvelle structure et d'un modèle :
Sélectionnez la méthode de définition : ici, vous sélectionnez un type de source de données, puis choisissez À partir du cube existant.
Remarque
Le cube OLAP que vous utilisez comme source doit exister dans la même base de données que la structure d’exploration de données, comme décrit ci-dessus. En outre, vous ne pouvez pas utiliser un cube créé par le complément PowerPivot pour Excel comme source d’exploration de données.
Créez la structure d’exploration de données : déterminez si vous créez uniquement une structure ou une structure avec un modèle d’exploration de données.
Vous devez également choisir un algorithme approprié pour analyser vos données. Pour obtenir des conseils sur l’algorithme qui convient le mieux à certaines tâches, consultez HYPERLINK « ms-help ://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm» Algorithmes d’exploration de données (Analysis Services - Exploration de données).
Sélectionnez la dimension du cube source : cette étape est identique à la sélection d’une source de données. Vous devez choisir la dimension unique qui contient les données les plus importantes utilisées pour l’apprentissage de votre modèle. Vous pouvez ajouter des données à partir d’autres dimensions ultérieures ou filtrer la dimension.
Sélectionnez la clé de dossier : dans la dimension que vous venez de sélectionner, choisissez un attribut (colonne) pour servir d’identificateur unique pour vos données de dossier.
En règle générale, une colonne est pré-sélectionnée pour vous, mais vous pouvez modifier la colonne si en fait il existe plusieurs clés.
Sélection des colonnes au niveau des cas : Ici, vous choisissez les attributs de la dimension sélectionnée, ainsi que les mesures associées, pertinentes pour votre analyse. Cette étape équivaut à sélectionner des colonnes dans une table.
L'Assistant inclut automatiquement, pour que vous puissiez les réviser et les sélectionner, toutes les mesures créées en utilisant des attributs de la dimension sélectionnée.
Par exemple, si votre cube contient une mesure qui calcule le coût de transport en fonction de l’emplacement géographique du client et que vous avez choisi la dimension Customer comme source de données principale pour la modélisation, la mesure est proposée comme candidat à l’ajout au modèle. Veillez à ajouter trop de mesures qui sont déjà directement basées sur des attributs, car il existe déjà une relation implicite entre les colonnes, telle que définie dans la formule de mesure, et la force de cette corrélation (attendue) peut masquer d’autres relations que vous pourriez découvrir autrement.
Spécifier l’utilisation des colonnes du modèle d’exploration de données : pour chaque attribut ou mesure que vous avez ajouté à la structure, vous devez spécifier si l’attribut doit être utilisé pour la prédiction ou utilisé comme entrée. Si vous ne sélectionnez pas l’une de ces options, les données seront traitées, mais ne seront pas utilisées pour l’analyse ; toutefois, elles seront disponibles comme données de fond si vous activez ultérieurement l’extraction.
Ajouter des tables imbriquées : cliquez pour ajouter des tables associées. Dans la boîte de dialogue Sélectionner une dimension de groupe de mesures, vous pouvez choisir une dimension unique parmi les dimensions associées à la dimension actuelle.
Ensuite, vous utilisez la boîte de dialogue Sélectionner une clé de table imbriquée pour définir la façon dont la nouvelle dimension est liée à la dimension qui contient les données de cas.
Utilisez la boîte de dialogue Sélectionner les colonnes de tableau imbriquées pour choisir les attributs et les mesures de la nouvelle dimension que vous souhaitez utiliser dans l’analyse. Vous devez également spécifier si l’attribut imbriqué sera utilisé pour la prédiction.
Une fois que vous avez ajouté tous les attributs imbriqués dont vous avez besoin, revenez à la page, spécifiez l’utilisation des colonnes de modèle d’exploration de données, puis cliquez sur Suivant.
Spécifiez le contenu des colonnes et le type de données : à ce stade, vous avez ajouté toutes les données qui seront utilisées pour l’analyse et doivent spécifier le type de données et le type de contenu pour chaque attribut.
Dans un modèle OLAP, vous n’avez pas la possibilité de détecter automatiquement les types de données, car le type de données est déjà défini par la solution multidimensionnelle et ne peut pas être modifié. Les clés sont également identifiées automatiquement. Pour plus d’informations, consultez Types de données (exploration de données).
Le type de contenu que vous choisissez pour chaque colonne que vous utilisez dans le modèle indique à l’algorithme comment les données doivent être traitées. Pour plus d’informations, consultez Types de contenu (exploration de données).
Découpage du cube source : ici, vous pouvez définir des filtres dans un cube pour sélectionner uniquement un sous-ensemble de données et entraîner des modèles plus ciblés.
Vous filtrez un cube en choisissant la dimension sur laquelle filtrer, en sélectionnant le niveau de la hiérarchie qui contient les critères à utiliser, puis en tapant une condition à utiliser comme filtre.
Créer un jeu de tests : dans cette page, vous pouvez indiquer à l’Assistant combien de données doivent être mises de côté pour une utilisation lors du test du modèle. Si vos données prennent en charge plusieurs modèles, il est judicieux de créer un jeu de données d’attente afin que tous les modèles puissent être testés sur les mêmes données.
Pour plus d’informations, consultez Test et validation (exploration de données).
Fin de l’Assistant : sur cette page, vous donnez un nom à la nouvelle structure minière et au modèle minier associé, puis enregistrez la structure et le modèle.
Sur cette page, vous pouvez également définir les options suivantes :
Autoriser l’extraction
Créer une dimension de modèle de données d’exploration
Créer le cube en utilisant une dimension du modèle d'exploration de données
Pour en savoir plus sur ces options, consultez la section située plus loin dans cette rubrique, Compréhension des dimensions et de l’exploration détaillée de données.
À ce stade, la structure d’exploration de données et son modèle ne sont que des métadonnées ; vous devrez les traiter pour obtenir des résultats.
Scénarios d’utilisation de l’exploration de données avec des données OLAP
Les cubes OLAP contiennent fréquemment autant de membres et de dimensions qu’il peut être difficile de savoir où commencer par l’exploration de données. Pour identifier les modèles que contiennent les cubes, vous identifiez généralement une dimension unique d’intérêt, puis commencez à explorer les modèles liés à cette dimension. Le tableau suivant répertorie plusieurs tâches courantes d’exploration de données OLAP, décrit des exemples de scénarios dans lesquels vous pouvez appliquer chaque tâche et identifie l’algorithme d’exploration de données à utiliser pour chaque tâche.
| Tâche | Exemple de scénario | Algorithme |
|---|---|---|
| Regrouper des membres dans des clusters | Segmentez une dimension client basée sur les propriétés des membres du client, les produits que les clients achètent et le montant d’argent que les clients dépensent. | Algorithme de clustering Microsoft |
| Rechercher des membres intéressants ou anormaux | Identifiez les magasins intéressants ou anormaux dans une dimension de magasin en fonction des ventes, des bénéfices, de l’emplacement du magasin et de la taille du magasin. | Algorithme d’arbres de décision Microsoft |
| Rechercher des cellules intéressantes ou anormales | Identifiez les ventes des magasins qui vont à l’encontre des tendances classiques au fil du temps. | Algorithme Microsoft Time Series |
| Rechercher des corrélations | Identifiez les facteurs liés au temps d’arrêt du serveur, notamment la région, le type de machine, le système d’exploitation ou la date d’achat. | Algorithme Microsoft Naïve Bayes |
Découpage d’un cube et modèles de filtrage
Le découpage du cube pendant la création d’un modèle ressemble à la création d’un filtre sur un modèle d’exploration de données relationnelle. Dans un modèle relationnel, le filtre sur la source de données est défini comme une clause WHERE sur une instruction SQL ; dans un cube, vous utilisez l’éditeur pour créer des instructions de filtre à l’aide de MDX.
Par exemple, un cube peut contenir des informations sur les achats de produits dans le monde entier, mais pour votre campagne marketing, vous souhaitez créer un modèle basé sur l’analyse des clients féminins de plus de 30 personnes vivant au Royaume-Uni.
Dans ce scénario, vous allez créer deux filtres :
Pour le premier filtre, vous devez choisir la dimension Geography, choisir la hiérarchie pour la région, puis utiliser la liste d’expressions de filtre pour choisir « Royaume-Uni » dans les valeurs possibles.
Pour le deuxième filtre, vous devez choisir la dimension Customer, sélectionner l’attribut Gender et sélectionner « Femelle » dans la liste des valeurs d’attribut.
Une fois la structure d’exploration de données créée, vous pouvez modifier à la fois la définition des données de cube et les critères de filtrage. Pour plus d’informations, consultez Filtrer le cube de la source d'une structure minière.
L’onglet Structure d’exploration de données et l’onglet Modèle d’exploration de données fournissent une option permettant d’ajouter un filtre à une structure d’exploration de données existante, en cliquant sur Définir une tranche de cube. La boîte de dialogue Segment cube vous aide à générer une expression de filtre MDX valide en choisissant des valeurs dans les listes déroulantes.
Avertissement
Notez que l’interface de conception et de navigation des cubes a été modifiée dans SQL Server 2014. Pour plus d’informations, consultez Parcourir les données et les métadonnées dans Cube.
Vous pouvez ajouter autant de filtres sur le cube que nécessaire pour obtenir les données dont vous avez besoin pour le modèle d’exploration de données. Vous pouvez également définir des sections sur les fractions individuelles du cube. Par exemple, si votre structure contient deux tables imbriquées basées sur des produits, vous pouvez découper une table en mars 2004 et l’autre table en avril 2004. Le modèle résultant pourrait ensuite être utilisé pour prédire les achats effectués en avril en fonction des achats effectués en mars.
Utilisation de tables imbriquées dans un modèle d’exploration de données OLAP
Lorsque vous utilisez l’Assistant Exploration de données pour générer un modèle basé sur des données de cube, vous pouvez ajouter des tables imbriquées en spécifiant les noms des dimensions associées, puis en choisissant les attributs ou les mesures à ajouter au modèle.
Par exemple, si la dimension principale utilisée pour les données de cas est Customer, vous pouvez ajouter en tant que dimension associée la dimension Products, car vous vous attendez à ce qu’un client ait commandé plusieurs produits au fil du temps, et le cube lie déjà chaque client aux nombreux produits via les tables de faits de commande.
Vous ajoutez des tables imbriquées dans la page Spécifier l’utilisation des colonnes du modèle d’exploration de données de l’Assistant, en cliquant sur Ajouter des tables imbriquées. Une boîte de dialogue s’ouvre qui vous guide tout au long du processus de choix d’une dimension associée, ainsi que de toutes les mesures. Les cas et dimensions imbriquées doivent être associées avec une clé étrangère, et les mesures doivent utiliser l'un des attributs déjà inclus dans les cas ou les tables imbriquées. Malheureusement, ces restrictions ne font vraiment pas beaucoup pour limiter l’étendue. Vous devez donc veiller à sélectionner uniquement les attributs qui sont utiles pour la modélisation.
Pour chaque attribut ou mesure que vous ajoutez à la table imbriquée, vous devez spécifier si l’attribut imbriqué sera utilisé pour la prédiction ou non, en sélectionnant Prédictible ou entrée dans la boîte de dialogue Sélectionner des colonnes de table imbriquées . Si vous ne sélectionnez pas l’une de ces options, les données sont ajoutées à la structure d’exploration de données, mais elles ne sont pas utilisées pour l’analyse.
Pour chaque attribut et chaque mesure, vous devez également spécifier si l’attribut est discret, discrétisé ou continu. L’Assistant préélectionne une valeur par défaut en fonction du type de données de l’attribut, mais vous devrez peut-être les modifier en fonction des exigences de l’algorithme. Si vous choisissez un type de contenu qui n’est pas compatible avec l’algorithme que vous avez choisi (par exemple, vous utilisez un type numérique continu avec un modèle Naïve Bayes), vous ne recevez pas de message d’erreur tant que vous n’essayez pas de traiter le modèle.
Lorsque vous avez terminé de définir ces options, l’assistant ajoute la table imbriquée à la table de cas. Le nom par défaut de la table imbriquée est le nom de dimension imbriqué, mais vous pouvez renommer la table imbriquée et ses colonnes. Vous pouvez répéter ce processus pour ajouter plusieurs tables imbriquées à la structure d’exploration de données.
La possibilité d’utiliser des données de table imbriquées comme celle-ci est une fonctionnalité de l’exploration de données SQL Server particulièrement puissante et, dans un cube, il existe des possibilités presque illimitées d’utiliser des sous-ensembles de données connexes.
Comprendre les dimensions de la fouille de données et l'exploration détaillée.
L’option Autoriser l’extraction vous permet d’exécuter des requêtes sur les données de cube sous-jacentes pendant que vous parcourez le modèle. Les données ne sont pas contenues dans la nouvelle dimension d’exploration de données, mais la base de données Analysis Services peut utiliser les liaisons de données pour récupérer les informations du cube source.
L’option Créer une dimension de modèle d’exploration de données vous permet de générer une nouvelle dimension dans le cube existant qui contient les modèles découverts par l’algorithme. La hiérarchie dans la nouvelle dimension est déterminée en grande partie par le type de modèle. Par exemple, la représentation d’un modèle de clustering est assez plate, avec le nœud (Tout) en haut de la hiérarchie et chaque cluster au niveau suivant. En revanche, la dimension créée pour un modèle d’arbre de décision peut avoir une hiérarchie très profonde représentant la branche de l’arbre.
L’option Créer un cube à l’aide de la dimension de modèle d’exploration de données vous permet d’exporter la nouvelle dimension d’exploration de données dans un nouveau cube. Tous les objets requis pour l’extraction sur la dimension d’exploration de données seront inclus automatiquement.
Avertissement
Seuls ces types de modèles prennent en charge la création de dimensions d’exploration de données : modèles basés sur l’algorithme Microsoft Clustering, l’algorithme Microsoft Decision Trees ou l’algorithme Microsoft Association.
Voir aussi
Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Colonnes de structure d'exploration de données
Colonnes du modèle d’exploration de données
Propriétés du modèle d’exploration de données
Propriétés de la structure d’exploration de données et des colonnes de structure