Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La structure d’exploration de données définit les données à partir desquelles les modèles d'exploration de données sont construits : elle spécifie la vue de données source, le nombre et le type de colonnes, ainsi qu'éventuellement une partition en jeux de formation et de test. Une seule structure d’exploration de données peut prendre en charge plusieurs modèles d’exploration de données qui partagent le même domaine. Le diagramme suivant illustre la relation de la structure d’exploration de données à la source de données et à ses modèles d’exploration de données constituants.
La structure d’exploration de données du diagramme est basée sur une source de données qui contient plusieurs tables ou vues, jointes sur le champ CustomerID. Un tableau contient des informations sur les clients, comme la région géographique, l’âge, le revenu et le sexe, tandis que la table imbriquée associée contient plusieurs lignes d’informations supplémentaires sur chaque client, telles que les produits achetés par le client. Le diagramme montre que plusieurs modèles peuvent être générés sur une structure d’exploration de données et que les modèles peuvent utiliser différentes colonnes de la structure.
Modèle 1 Utilise CustomerID, Income, Age, Region et filtre les données sur Region.
Modèle 2 Utilise CustomerID, Income, Age, Region et filtre les données sur Age.
Modèle 3 Utilise CustomerID, Age, Gender et la table imbriquée, sans filtre.
Étant donné que les modèles utilisent des colonnes différentes pour l’entrée et que deux des modèles limitent également les données utilisées dans le modèle en appliquant un filtre, les modèles peuvent avoir des résultats très différents, même s’ils sont basés sur les mêmes données. Notez que la colonne CustomerID est requise dans tous les modèles, car il s'agit de la seule colonne disponible pouvant être utilisée comme clé de cas.
Cette section explique l’architecture de base des structures d’exploration de données : comment vous définissez une structure d’exploration de données, comment vous la remplissez avec des données et comment vous l’utilisez pour créer des modèles. Pour plus d’informations sur la gestion ou l’exportation de structures d’exploration de données existantes, consultez Gestion des solutions et objets d’exploration de données.
Définition d’une structure d’exploration de données
La configuration d’une structure d’exploration de données comprend les étapes suivantes :
Définissez une source de données.
Sélectionnez les colonnes de données à inclure dans la structure (pas toutes les colonnes doivent être ajoutées au modèle) et définissez une clé.
Définissez une clé pour la structure, y compris la clé de la table recommandée, le cas échéant.
Spécifiez si les données sources doivent être séparées dans un jeu d’entraînement et un jeu de test. Cette étape est facultative.
Traitez la structure.
Ces étapes sont décrites de manière plus détaillée dans les sections suivantes.
Sources de données pour les structures d’exploration de données
Lorsque vous définissez une structure d’exploration de données, vous utilisez des colonnes disponibles dans une vue de source de données existante. Une vue de source de données est un objet partagé qui vous permet de combiner plusieurs sources de données et de les utiliser comme source unique. Les sources de données d’origine ne sont pas visibles par les applications clientes et vous pouvez utiliser les propriétés de la vue de source de données pour modifier les types de données, créer des agrégations ou des colonnes d’alias.
Si vous générez plusieurs modèles d’exploration de données à partir de la même structure d’exploration de données, les modèles peuvent utiliser différentes colonnes de la structure. Par exemple, vous pouvez créer une structure unique, puis créer des modèles d’arbre de décision et de clustering distincts à partir de celui-ci, chaque modèle utilisant des colonnes différentes et prédire différents attributs.
De plus, chaque modèle peut utiliser les colonnes de la structure de différentes manières. Par exemple, votre vue de source de données peut contenir une colonne Income, que vous pouvez compartimenter de différentes manières pour différents modèles.
La structure d’exploration de données stocke la définition de la source de données et les colonnes qu’elle contient sous la forme de liaisons aux données sources. Pour plus d’informations sur les liaisons de sources de données, consultez Sources de données et liaisons (multidimensionnelles SSAS). Toutefois, notez que vous pouvez également créer une structure d’exploration de données sans la lier à une source de données spécifique à l’aide de l’instruction DMX CREATE MINING STRUCTURE (DMX).
Colonnes de structure d’exploration de données
Les éléments constitutifs de la structure d'exploration sont les colonnes de structure d'exploration, qui décrivent les données que la source de données contient. Ces colonnes contiennent des informations telles que le type de données, le type de contenu et la façon dont les données sont distribuées. La structure d’exploration de données ne contient pas d’informations sur la façon dont les colonnes sont utilisées pour un modèle d’exploration de données spécifique ou sur le type d’algorithme utilisé pour générer un modèle ; ces informations sont définies dans le modèle d’exploration de données lui-même.
Une structure d’exploration de données peut également contenir des tables imbriquées. Une table imbriquée représente une relation un-à-plusieurs entre l’entité d’un cas et ses attributs associés. Par exemple, si les informations qui décrivent le client résident dans une table et que les achats du client résident dans une autre table, vous pouvez utiliser des tables imbriquées pour combiner les informations dans un cas unique. L’identificateur du client est l’entité et les achats sont les attributs associés. Pour plus d’informations sur l’utilisation de tables imbriquées, consultez Tables imbriquées (Analysis Services - Exploration de données).
Pour créer un modèle d’exploration de données dans SQL Server Data Tools (SSDT), vous devez d’abord créer une structure d’exploration de données. L’Assistant Exploration de données vous guide tout au long du processus de création d’une structure d’exploration de données, du choix des données et de l’ajout d’un modèle d’exploration de données.
Si vous créez un modèle d’exploration de données à l’aide d’extensions d’exploration de données (DMX), vous pouvez spécifier le modèle et les colonnes qu’il contient, et DMX crée automatiquement la structure d’exploration de données requise. Pour plus d’informations, consultez CREATE MINING MODEL (DMX).
Pour plus d’informations, consultez Colonnes de structure d’exploration de données.
Division des données en jeux d’apprentissage et de test
Lorsque vous définissez les données de la structure d’exploration de données, vous pouvez également spécifier que certaines données doivent être utilisées pour l'apprentissage et d'autres pour les tests. Par conséquent, il n’est plus nécessaire de séparer vos données avant de créer une structure d’exploration de données. Au lieu de cela, pendant que vous créez votre modèle, vous pouvez spécifier qu’un certain pourcentage des données doivent être conservées pour les tests et le reste utilisé pour l’entraînement, ou vous pouvez spécifier un certain nombre de cas à utiliser comme jeu de données de test. Les informations sur les jeux de données d’entraînement et de test sont mises en cache avec la structure d’exploration de données et, par conséquent, le même jeu de tests peut être utilisé avec tous les modèles basés sur cette structure.
Pour plus d’informations, consultez Jeux de données de formation et de test.
Activation de l’exploration détaillée
Vous pouvez ajouter des colonnes à la structure d’exploration de données même si vous ne prévoyez pas d’utiliser la colonne dans un modèle d’exploration de données spécifique. Cela est utile si, par exemple, vous souhaitez récupérer les adresses de messagerie des clients dans un modèle de clustering, sans utiliser l’adresse de messagerie pendant le processus d’analyse. Pour ignorer une colonne pendant la phase d’analyse et de prédiction, vous l’ajoutez à la structure, mais ne spécifiez pas d’utilisation pour la colonne, ou définissez l’indicateur d’utilisation sur Ignorer. Les données signalées de cette façon peuvent toujours être utilisées dans les requêtes si l’extraction a été activée sur le modèle d’exploration de données et si vous disposez des autorisations appropriées. Par exemple, vous pouvez examiner les clusters résultant de l’analyse de tous les clients, puis utiliser une requête d’extraction pour obtenir les noms et les adresses de messagerie des clients dans un cluster particulier, même si ces colonnes de données n’ont pas été utilisées pour générer le modèle.
Pour plus d’informations, consultez Requêtes d’extraction (exploration de données).
Traitement des structures d’exploration de données
Une structure d’exploration de données n’est qu’un conteneur de métadonnées jusqu’à ce qu’elle soit traitée. Lorsque vous traitez une structure d’exploration de données, Analysis Services crée un cache qui stocke des statistiques sur les données, des informations sur la façon dont les attributs continus sont discrétisés et d’autres informations utilisées ultérieurement par les modèles d’exploration de données. Le modèle d’exploration de données lui-même ne stocke pas ces informations récapitulatives, mais fait référence aux informations mises en cache lors du traitement de la structure d’exploration de données. Par conséquent, vous n’avez pas besoin de retraiter la structure chaque fois que vous ajoutez un nouveau modèle à une structure existante ; vous pouvez traiter uniquement le modèle.
Vous pouvez choisir d’ignorer ce cache après le traitement, si le cache est très volumineux ou si vous souhaitez supprimer des données détaillées. Si vous ne souhaitez pas que les données soient mises en cache, vous pouvez modifier la propriété de la structure d’exploration de données CacheMode en ClearAfterProcessing. Cela détruit le cache une fois que tous les modèles sont traités. Définir la propriété CacheMode sur ClearAfterProcessing désactivera le drillthrough du modèle d'exploration de données.
Toutefois, après avoir supprimé le cache, vous ne pourrez pas ajouter de nouveaux modèles à la structure d’exploration de données. Si vous ajoutez un nouveau modèle d’exploration de données à la structure ou modifiez les propriétés des modèles existants, vous devez d’abord retraiter la structure d’exploration de données. Pour plus d’informations, consultez Exigences et considérations relatives au traitement (exploration de données).
Affichage des structures d’exploration de données
Vous ne pouvez pas utiliser les outils de visualisation pour parcourir les données d’une structure d’exploration de données. Toutefois, dans SQL Server Data Tools (SSDT), vous pouvez utiliser l’onglet Structure d’exploration de données du Concepteur d’exploration de données pour afficher les colonnes de structure et leurs définitions. Pour plus d’informations, consultez Le Concepteur d’exploration de données.
Si vous souhaitez passer en revue les données de la structure d’exploration de données, vous pouvez créer des requêtes à l’aide d’extensions d’exploration de données (DMX). Par exemple, l’instruction SELECT * FROM <structure>.CASES renvoie toutes les données de la structure de données. Pour récupérer ces informations, la structure d’exploration de données doit avoir été traitée et les résultats du traitement doivent être mis en cache.
L’instruction SELECT * FROM <model>.CASES retourne les mêmes colonnes, mais uniquement pour les cas de ce modèle particulier. Pour plus d’informations, consultez SELECT FROM <structure>.CASES et SELECT FROM <modèle>.CASES (DMX).
Utilisation de modèles d’exploration de données avec des structures d’exploration de données
Un modèle d’exploration de données applique un algorithme d’exploration de données aux données représentées par une structure d’exploration de données. Un modèle d’exploration de données est un objet qui appartient à une structure d’exploration de données particulière, et le modèle hérite de toutes les valeurs des propriétés définies par la structure d’exploration de données. Le modèle peut utiliser toutes les colonnes que la structure d’exploration de données contient ou un sous-ensemble des colonnes. Vous pouvez ajouter plusieurs copies d’une colonne de structure à une structure. Vous pouvez également ajouter plusieurs copies d’une colonne de structure à un modèle, puis affecter différents noms ou alias à chaque colonne de structure du modèle. Pour plus d’informations sur les colonnes de structure avec alias, consultez Créer un alias pour une colonne de modèle et Propriétés du modèle d’exploration de données.
Pour plus d’informations sur l’architecture des modèles d’exploration de données, consultez Modèles d’exploration de données (Analysis Services - Exploration de données).
Tâches associées
Utilisez les liens fournis pour en savoir plus sur la définition, la gestion et l’utilisation des structures d’exploration de données.
| Tâches | Liens |
|---|---|
| Travailler avec des structures de minage relationnelles |
Créer une structure d’exploration de données relationnelle Ajouter une table imbriquée à une structure d’exploration de données |
| Utiliser des structures d’exploration de données basées sur des cubes OLAP |
Créer une structure d’exploration de données OLAP Filtrer le cube source pour une structure d’exploration de données |
| Utiliser des colonnes dans une structure de données minière |
Ajouter des colonnes à une structure d’exploration de données Supprimer des colonnes d’une structure d’exploration de données |
| Modifier ou interroger des propriétés et des données de structure d’exploration de données | Modifier les propriétés d'une structure minière |
| Utiliser les sources de données sous-jacentes et mettre à jour les données sources |
Modifier la vue de source de données utilisée pour une structure d’exploration de données Traiter une structure d’exploration de données |
Voir aussi
Objets de base de données (Analysis Services - Données multidimensionnelles)
Modèles d’exploration de données (Analysis Services - Exploration de données)