Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La plupart des modèles d’exploration de données sont basés sur des sources de données relationnelles. Les avantages de la création d’un modèle d’exploration de données relationnelle sont que vous pouvez assembler des données ad hoc et entraîner et mettre à jour un modèle sans la complexité de la création d’un cube.
Une structure d’exploration de données relationnelle peut extraire des données à partir de sources disparates. Les données brutes peuvent être stockées dans des tables, des fichiers ou des systèmes de base de données relationnelles, tant que les données peuvent être définies dans le cadre de la vue de source de données. Par exemple, vous devez utiliser une structure d’exploration de données relationnelle si vos données se trouvent dans Excel, un entrepôt de données SQL Server ou une base de données de création de rapports SQL Server, ou dans des sources externes accessibles via les fournisseurs OLE DB ou ODBC.
Cette rubrique fournit une vue d’ensemble de l’utilisation de l’Assistant Exploration de données pour créer une structure d’exploration de données relationnelle.
Processus de création d’une structure d’exploration de données relationnelle
Comment choisir des sources de données
Comment spécifier le type de contenu et le type de données
Pourquoi et comment créer un ensemble de données de validation
Pourquoi et comment activer l'exploration détaillée
Spécifications
Tout d’abord, vous devez disposer d’une source de données existante. Vous pouvez utiliser le concepteur de source de données pour configurer une source de données, si elle n’existe pas déjà. Pour plus d’informations, consultez Créer une source de données (multidimensionnelle SSAS).
Ensuite, utilisez l’Assistant Vue de source de données pour assembler les données requises dans une vue de source de données unique. Pour plus d’informations sur la façon dont vous pouvez sélectionner, transformer, filtrer ou gérer des données avec des vues de source de données, consultez Vues de source de données dans les modèles multidimensionnels.
Vue d’ensemble du processus
Démarrez l’Assistant Exploration de données, en cliquant avec le bouton droit sur le nœud Structures d’exploration de données dans l’Explorateur de solutions, puis en sélectionnant Ajouter une nouvelle structure d’exploration de données. L’Assistant vous guide tout au long des étapes suivantes pour créer la structure d’un nouveau modèle d’exploration de données relationnel :
Sélectionnez la méthode de définition : ici, vous sélectionnez un type de source de données, puis choisissez À partir d’une base de données relationnelle ou d’un entrepôt de données.
Créez la structure d’exploration de données : déterminez si vous créez uniquement une structure ou une structure avec un modèle d’exploration de données.
Vous choisissez également un algorithme approprié pour votre modèle initial. Pour obtenir des conseils sur l’algorithme le mieux adapté à certaines tâches, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données).
Sélectionnez Vue de source de données : choisissez une vue de sources de données à utiliser lors de l’apprentissage de votre modèle. La vue de source de données peut également contenir des données utilisées pour le test ou des données non liées. Vous pouvez choisir les données réellement utilisées dans la structure et dans le modèle. Vous pouvez également appliquer des filtres aux données ultérieurement.
Spécifier les types de tables : sélectionnez la table qui contient les cas utilisés pour l’analyse. Pour certains jeux de données, en particulier ceux utilisés pour la création de modèles de panier de marché, vous pouvez également inclure une table associée, à utiliser comme table imbriquée.
Pour chaque table, vous devez spécifier la clé afin que l’algorithme sache comment identifier un enregistrement unique et les enregistrements associés si vous avez ajouté une table imbriquée.
Pour plus d’informations, consultez Colonnes de structure d’exploration de données.
Spécifiez les données d’entraînement : dans cette page, vous choisissez comme table de cas, qui est la table qui contient les données les plus importantes pour l’analyse.
Pour certains jeux de données, en particulier ceux utilisés pour la création de modèles de panier de marché, vous pouvez également inclure une table associée. Les valeurs de cette table imbriquée sont gérées sous la forme de plusieurs valeurs liées à une seule ligne (ou cas) dans la table principale.
Spécifier le contenu des colonnes et les types de données : pour chaque colonne que vous utilisez dans la structure, vous devez choisir à la fois un type de données et un type de contenu.
L’Assistant détecte automatiquement les types de données possibles, mais vous n’avez pas besoin d’utiliser le type de données recommandé par l’Assistant. Par exemple, même si vos données contiennent des nombres, elles peuvent être représentatives de données catégorielles. Les colonnes que vous spécifiez en tant que clés reçoivent automatiquement le type de données correct pour ce type de modèle particulier. Pour plus d’informations, consultez Colonnes du modèle d'exploration de données et Types de données (exploration de données).
Le type de contenu que vous choisissez pour chaque colonne que vous utilisez dans le modèle indique à l’algorithme comment les données doivent être traitées.
Par exemple, vous pouvez décider de discrétiser des nombres plutôt que d’utiliser des valeurs continues. Vous pouvez également demander à l’algorithme de détecter automatiquement le meilleur type de contenu pour la colonne. Pour plus d’informations, consultez Types de contenu (exploration de données).
Créer un jeu de tests : dans cette page, vous pouvez indiquer à l’Assistant combien de données doivent être mises de côté pour une utilisation lors du test du modèle. Si vos données prennent en charge plusieurs modèles, il est judicieux de créer un jeu de données d’attente afin que tous les modèles puissent être testés sur les mêmes données.
Pour plus d’informations, consultez Test et validation (exploration de données).
Fin de l’Assistant : sur cette page, vous donnez un nom à la nouvelle structure minière et au modèle minier associé, puis enregistrez la structure et le modèle.
Vous pouvez également définir certaines options importantes, en fonction du type de modèle. Par exemple, vous pouvez activer l’extraction sur la structure.
À ce stade, la structure d’exploration de données et son modèle ne sont que des métadonnées ; vous devrez les traiter pour obtenir des résultats.
Comment choisir des données relationnelles
Les structures d’exploration de données relationnelles peuvent être basées sur toutes les données disponibles via une source de données OLE DB. Si les données sources sont contenues dans plusieurs tables, vous utilisez une vue de source de données pour assembler les tables et colonnes dont vous avez besoin dans un emplacement unique.
Si les tables incluent des relations un-à-plusieurs, par exemple, vous avez plusieurs enregistrements d'achat pour chaque client que vous souhaitez analyser, vous pouvez ajouter les deux tables, puis utiliser une table comme table principale, en liant les données du côté plusieurs de la relation en tant que table de données imbriquée.
Les données d’une structure d’exploration de données sont dérivées de ce qui se trouve dans la vue de source de données existante. Vous pouvez modifier les données comme vous le souhaitez dans la vue de source de données, en ajoutant des relations ou des colonnes dérivées qui peuvent ne pas être présentes dans les données relationnelles sous-jacentes. Vous pouvez également créer des calculs nommés ou des agrégations dans la vue de source de données. Ces fonctionnalités sont très pratiques si vous n’avez pas de contrôle sur l’organisation des données dans la source de données, ou si vous souhaitez expérimenter différentes agrégations de données pour vos modèles d’exploration de données.
Vous n’avez pas besoin d’utiliser toutes les données disponibles ; vous pouvez sélectionner les colonnes à inclure dans le modèle d'exploration de données. Tous les modèles basés sur cette structure peuvent ensuite utiliser ces colonnes, ou vous pouvez marquer certaines colonnes comme Ignore pour un modèle particulier. Vous pouvez permettre aux utilisateurs d’un modèle d’exploration de données d’explorer les résultats du modèle d’exploration de données pour afficher des colonnes de structure d’exploration de données supplémentaires qui n’ont pas été incluses dans le modèle d’exploration de données lui-même.
Comment spécifier le type de contenu et le type de données
Le type de données est presque identique aux types de données que vous spécifiez dans SQL Server ou d’autres interfaces d’application : dates et heures, nombres de tailles différentes, valeurs booléennes, texte et autres données discrètes.
Toutefois, les types de contenu sont importants pour l’exploration de données et affectent le résultat de l’analyse. Le type de contenu indique à l’algorithme ce qu’il doit faire avec les données : les nombres doivent-ils être traités à l’échelle continue ou binnés ? Combien de valeurs potentielles y a-t-il ? Chaque valeur est-elle distincte ? Si la valeur est une clé, quel type de clé est-il : indique-t-il une valeur de date/heure, une séquence ou un autre type de clé ?
Notez que le choix du type de données peut limiter votre choix de types de contenu. Par exemple, vous ne pouvez pas discrétiser les valeurs qui ne sont pas numériques. Si vous ne voyez pas le type de contenu souhaité, vous pouvez cliquer sur Retour pour revenir à la page de type de données et essayer un autre type de données.
Vous n’avez pas besoin de trop vous inquiéter de vous tromper sur le type de contenu. Il est très facile de créer un modèle et de modifier le type de contenu dans le modèle, tant que le nouveau type de contenu est pris en charge par le jeu de types de données dans la structure d’exploration de données. Il est également très courant de créer plusieurs modèles à l’aide de différents types de contenu, soit en tant qu’expérience, soit pour répondre aux exigences d’un autre algorithme.
Par exemple, si vos données contiennent une colonne de revenu, vous pouvez créer deux modèles différents lors de l’utilisation de l’algorithme Microsoft Decision Trees et configurer la colonne alternativement en tant que nombres continus ou plages discrètes. Toutefois, si vous avez ajouté un modèle à l’aide de l’algorithme Microsoft Naïve Bayes, vous êtes obligé de modifier la colonne en valeurs discrétisées uniquement, car cet algorithme ne prend pas en charge les nombres continus.
Pourquoi et comment fractionner des données en jeux d’apprentissage et de test
Près de la fin de l’Assistant, vous devez décider s’il faut partitionner vos données dans des jeux d’apprentissage et de test. La possibilité de provisionner une partie échantillonné aléatoirement des données à des fins de test est très pratique, car elle garantit qu’un ensemble cohérent de données de test est disponible pour une utilisation avec tous les modèles d’exploration de données associés à la nouvelle structure d’exploration de données.
Avertissement
Notez que cette option n’est pas disponible pour tous les types de modèles. Par exemple, si vous créez un modèle de prévision, vous ne pourrez pas utiliser le délai d’attente, car l’algorithme de série chronologique exige qu’il n’y ait pas d’écarts dans les données. Pour obtenir la liste des types de modèles qui prennent en charge les jeux de données de validation, consultez Training and Testing Data Sets.
Pour créer ce jeu de données de validation, vous spécifiez le pourcentage des données que vous souhaitez utiliser pour les tests. Toutes les données restantes seront utilisées pour l’entraînement. Si vous le souhaitez, vous pouvez définir un nombre maximal de cas à utiliser pour les tests ou définir une valeur initiale à utiliser pour démarrer le processus de sélection aléatoire.
La définition de l'ensemble de test de validation est stockée avec la structure d’exploration de données, afin que l'ensemble de données de test soit disponible chaque fois que vous créez un nouveau modèle basé sur cette structure, pour évaluer la précision du modèle. Si vous supprimez le cache de la structure d’exploration de données, les informations sur les cas utilisés pour l’entraînement et qui ont été utilisés pour les tests seront également supprimées.
Pourquoi et comment activer le drill through
Presque à la fin de l’Assistant, vous avez la possibilité d’activer le forage. Il est facile de manquer cette option, mais c’est un élément important. L’exploration approfondie vous permet d’afficher les données sources dans la structure de données en interrogeant le modèle d’exploration de données.
Pourquoi cela est-il utile ? Supposons que vous visualisez les résultats d’un modèle de clustering et que vous souhaitez voir les clients qui ont été placés dans un cluster spécifique. En utilisant l'exploration détaillée, vous pouvez afficher les détails tels que les informations de contact.
Avertissement
Pour utiliser le drillthrough, vous devez l'activer lorsque vous créez la structure de modélisation de données. Vous pouvez activer l’exploration détaillée sur les modèles ultérieurement, en définissant une propriété sur le modèle, mais les structures d’exploration de données nécessitent que cette option soit définie au début. Pour plus d’informations, consultez Requêtes d’extraction (exploration de données).
Voir aussi
Concepteur d’exploration de données
Assistant Exploration de données (Analysis Services - Exploration de données)
Propriétés du modèle d’exploration de données
Propriétés de la structure d’exploration de données et des colonnes de structure
Tâches de structure d’exploration de données et procédure