Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Un modèle d’exploration de données est créé en appliquant un algorithme aux données, mais il ne s’agit pas seulement d’un algorithme ou d’un conteneur de métadonnées : c'est un ensemble de données, de statistiques et de motifs qui peuvent être appliqués à de nouvelles données pour générer des prédictions et faire des inférences sur les relations.
Cette section explique ce qu’est un modèle d’exploration de données et ce qu’il peut être utilisé pour : l’architecture de base des modèles et des structures, les propriétés des modèles d’exploration de données et les façons de créer et d’utiliser des modèles d’exploration de données.
Architecture du modèle d’exploration de données
Définition de modèles d’exploration de données
Propriétés du modèle d’exploration de données
Colonnes du modèle d’exploration de données
Traitement des modèles d’exploration de données
Affichage et interrogation de modèles d’exploration de données
Architecture du modèle d’exploration de données
Un modèle d’exploration de données obtient des données à partir d’une structure d’exploration de données, puis analyse ces données à l’aide d’un algorithme d’exploration de données. La structure d’exploration de données et le modèle d’exploration de données sont des objets distincts. La structure d'exploration de données conserve les informations définissant la source de données. Un modèle d’exploration de données stocke des informations dérivées du traitement statistique des données, telles que les modèles trouvés à la suite de l’analyse.
Un modèle d’exploration de données est vide jusqu’à ce que les données fournies par la structure d’exploration de données soient traitées et analysées. Une fois qu’un modèle d’exploration de données a été traité, il contient des métadonnées, des résultats et des liaisons à la structure d’exploration de données.
Les métadonnées spécifient le nom du modèle et le serveur où il est stocké, ainsi qu’une définition du modèle, y compris les colonnes de la structure d’exploration de données utilisées pour générer le modèle, les définitions des filtres appliqués lors du traitement du modèle et l’algorithme utilisé pour analyser les données. Tous ces choix, les colonnes de données et leurs types de données, filtres et algorithmes, ont une influence puissante sur les résultats de l’analyse.
Par exemple, vous pouvez utiliser les mêmes données pour créer plusieurs modèles, en utilisant peut-être un algorithme de clustering, un algorithme d’arbre de décision et un algorithme Naïve Bayes. Chaque type de modèle crée différents ensembles de modèles, d’ensembles d’éléments, de règles ou de formules, que vous pouvez utiliser pour effectuer des prédictions. En règle générale, chaque algorithme analyse les données d’une manière différente, de sorte que le contenu du modèle résultant est également organisé dans différentes structures. Dans un type de modèle, les données et les modèles peuvent être regroupés dans des clusters ; dans un autre type de modèle, les données peuvent être organisées en arborescences, branches et règles qui les divisent et les définissent.
Le modèle est également affecté par les données sur lesquelles vous l’entraînez : même les modèles formés sur la même structure d’exploration de données peuvent produire des résultats différents si vous filtrez les données différemment ou utilisez des graines différentes pendant l’analyse. Toutefois, seules les statistiques récapitulatives du modèle sont stockées, les données réelles résidant dans la structure d'exploration de données. Si vous avez créé des filtres sur les données lorsque vous avez entraîné le modèle, les définitions de filtre sont également enregistrées avec l’objet modèle.
Le modèle contient un ensemble de liaisons, qui renvoient aux données mises en cache dans la structure de data mining. Si les données ont été mises en cache dans la structure et n’ont pas été effacées après le traitement, ces liaisons vous permettent de parcourir les résultats jusqu'aux cas qui sous-tendent les résultats. Toutefois, les données réelles sont stockées dans le cache de structure, et non dans le modèle.
Architecture du modèle d’exploration de données
Définition de modèles d’exploration de données
Vous créez un modèle d’exploration de données en suivant les étapes générales suivantes :
Créez la structure d’exploration de données sous-jacente et incluez les colonnes de données qui peuvent être nécessaires.
Sélectionnez l’algorithme le mieux adapté à la tâche analytique.
Choisissez les colonnes de la structure à utiliser dans le modèle et spécifiez comment elles doivent être utilisées- quelle colonne contient le résultat que vous souhaitez prédire, quelles colonnes sont destinées à l’entrée uniquement, et ainsi de suite.
Si vous le souhaitez, définissez les paramètres pour affiner le traitement par l’algorithme.
Remplissez le modèle avec des données en traitant la structure et le modèle.
Analysis Services fournit les outils suivants pour vous aider à gérer vos modèles d’exploration de données :
L’Assistant Exploration de données vous aide à créer une structure et un modèle d’exploration de données associé. Il s’agit de la méthode la plus simple à utiliser. L’Assistant crée automatiquement la structure d’exploration de données requise et vous aide à configurer les paramètres importants.
Une instruction DMX CREATE MODEL peut être utilisée pour définir un modèle. La structure requise est créée automatiquement dans le cadre du processus ; par conséquent, vous ne pouvez pas réutiliser une structure existante avec cette méthode. Utilisez cette méthode si vous connaissez déjà exactement le modèle que vous souhaitez créer, ou si vous souhaitez créer des modèles de script.
Une instruction DMX ALTER STRUCTURE ADD MODEL peut être utilisée pour ajouter un nouveau modèle d’exploration de données à une structure existante. Utilisez cette méthode si vous souhaitez expérimenter différents modèles basés sur le même jeu de données.
Vous pouvez également créer des modèles d’exploration de données par programmation à l’aide d’AMO ou XML/A, ou à l’aide d’autres clients tels que le client d’exploration de données pour Excel. Pour plus d’informations, consultez les rubriques suivantes :
Architecture du modèle d’exploration de données
Propriétés du modèle d’exploration de données
Chaque modèle d’exploration de données a des propriétés qui définissent le modèle et ses métadonnées. Celles-ci incluent le nom, la description, la date à laquelle le modèle a été traité pour la dernière fois, les autorisations sur le modèle et tous les filtres sur les données utilisées pour l’entraînement.
Chaque modèle d’exploration de données a également des propriétés dérivées de la structure d’exploration de données et qui décrivent les colonnes de données utilisées par le modèle. Si une colonne utilisée par le modèle est une table imbriquée, la colonne peut également avoir un filtre distinct appliqué.
En outre, chaque modèle d’exploration de données contient deux propriétés spéciales : Algorithm et Usage.
Propriété d’algorithme Spécifie l’algorithme utilisé pour créer le modèle. Les algorithmes disponibles dépendent du fournisseur que vous utilisez. Pour obtenir la liste des algorithmes inclus dans SQL Server Analysis Services, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données) La
Algorithmpropriété s’applique au modèle d’exploration de données et ne peut être définie qu’une seule fois pour chaque modèle. Vous pouvez modifier l’algorithme ultérieurement, mais certaines colonnes du modèle d’exploration de données peuvent devenir non valides si elles ne sont pas prises en charge par l’algorithme que vous choisissez. Pour chaque modification apportée à cette propriété, vous devez impérativement retraiter le modèle.Propriété Utilisation Définit la façon dont chaque colonne est utilisée par le modèle. Vous pouvez définir l’utilisation des colonnes en tant que
Input,Predict,Predict OnlyouKey. LaUsagepropriété s’applique aux colonnes de modèle d’exploration de données individuelles et doit être définie individuellement pour chaque colonne incluse dans un modèle. Si la structure contient une colonne que vous n’utilisez pas dans le modèle, l’utilisation est définie surIgnore. Des exemples de données que vous pouvez inclure dans la structure d’exploration de données, mais qui ne sont pas utilisées dans l’analyse, peuvent être des noms de clients ou des adresses de messagerie. De cette façon, vous pouvez les interroger ultérieurement sans avoir à les inclure pendant la phase d’analyse.
Vous pouvez modifier la valeur des propriétés du modèle d’exploration de données après avoir créé un modèle d’exploration de données. Toutefois, toute modification, même si elle concerne le nom du modèle d’exploration de données, nécessite de traiter à nouveau le modèle. Une fois que vous avez retraiter le modèle, vous pouvez voir des résultats différents.
Architecture du modèle d’exploration de données
Colonnes du modèle d’exploration de données
Le modèle d’exploration de données contient des colonnes de données obtenues à partir des colonnes définies dans la structure d’exploration de données. Vous pouvez choisir les colonnes de la structure d’exploration de données à utiliser dans le modèle, et vous pouvez créer des copies des colonnes de la structure d’exploration de données, puis les renommer ou modifier leur utilisation. Dans le cadre du processus de génération de modèles, vous devez également définir l’utilisation de la colonne par le modèle. Cela inclut des informations telles que si la colonne est une clé, qu’elle soit utilisée pour la prédiction ou si elle peut être ignorée par l’algorithme.
Pendant que vous créez un modèle, plutôt que d’ajouter automatiquement chaque colonne de données disponible, il est recommandé de passer en revue attentivement les données de la structure et d’inclure dans le modèle uniquement les colonnes qui sont pertinentes pour l’analyse. Par exemple, vous devez éviter d’inclure plusieurs colonnes qui répètent les mêmes données, et vous devez éviter d’utiliser des colonnes qui ont principalement des valeurs uniques. Si vous pensez qu’une colonne ne doit pas être utilisée, vous n’avez pas besoin de la supprimer de la structure d’exploration de données ou du modèle d’exploration de données ; Au lieu de cela, vous pouvez simplement définir un indicateur sur la colonne qui spécifie qu’il doit être ignoré lors de la génération du modèle. Cela signifie que la colonne reste dans la structure d’exploration de données, mais n’est pas utilisée dans le modèle d’exploration de données. Si vous avez activé l’extraction du modèle vers la structure d’exploration de données, vous pouvez récupérer les informations de la colonne ultérieurement.
Selon l’algorithme que vous choisissez, certaines colonnes de la structure d’exploration de données peuvent être incompatibles avec certains types de modèles ou vous donnent des résultats médiocres. Par exemple, si vos données contiennent des données numériques continues, telles qu’une colonne Income et que votre modèle nécessite des valeurs discrètes, vous devrez peut-être convertir les données en plages discrètes ou les supprimer du modèle. Dans certains cas, l’algorithme convertit ou bine automatiquement les données pour vous, mais les résultats peuvent ne pas toujours être ce que vous souhaitez ou attendez-vous. Envisagez d’effectuer des copies supplémentaires de la colonne et d’essayer différents modèles. Vous pouvez également définir des indicateurs sur les colonnes individuelles pour indiquer où un traitement spécial est nécessaire. Par exemple, si vos données contiennent des valeurs Null, vous pouvez utiliser un indicateur de modélisation pour contrôler la gestion. Si vous souhaitez qu’une colonne particulière soit considérée comme régresseur dans un modèle, vous pouvez le faire avec un indicateur de modélisation.
Une fois que vous avez créé le modèle, vous pouvez apporter des modifications telles que l’ajout ou la suppression de colonnes, ou modifier le nom du modèle. Toutefois, toute modification, même uniquement pour les métadonnées du modèle, nécessite de retraiter le modèle.
Architecture du modèle d’exploration de données
Traitement des modèles d’exploration de données
Un modèle d’exploration de données est un objet vide jusqu’à ce qu’il soit traité. Lorsque vous traitez un modèle, les données mises en cache par la structure sont transmises via un filtre, si un modèle a été défini et analysé par l’algorithme. L’algorithme calcule un ensemble de statistiques récapitulatives qui décrivent les données, identifie les règles et les modèles dans les données, puis utilise ces règles et modèles pour remplir le modèle.
Une fois qu’il a été traité, le modèle d’exploration de données contient une multitude d’informations sur les données et les modèles trouvés par l’analyse, notamment les statistiques, les règles et les formules de régression. Vous pouvez utiliser les visionneuses personnalisées pour parcourir ces informations, ou vous pouvez créer des requêtes d’exploration de données pour récupérer ces informations et les utiliser pour l’analyse et la présentation.
Architecture du modèle d’exploration de données
Affichage et interrogation de modèles d’exploration de données
Une fois que vous avez traité un modèle, vous pouvez l’explorer à l’aide des visionneuses personnalisées fournies dans SQL Server Data Tools (SSDT) et SQL Server Management Studio. Pour
Vous pouvez également créer des requêtes sur le modèle d’exploration de données pour effectuer des prédictions, ou pour récupérer des métadonnées de modèle ou les modèles créés par le modèle. Vous créez des requêtes à l’aide d’extensions d’exploration de données (DMX).
Contenu associé
| Sujets | Liens |
|---|---|
| Découvrez comment créer des structures d’exploration de données qui peuvent prendre en charge plusieurs modèles d’exploration de données. Découvrez l’utilisation des colonnes dans les modèles. |
Colonnes de structure d'exploration de données Colonnes du modèle d’exploration de données Types de contenu (exploration de données) |
| Découvrez les différents algorithmes et comment le choix de l’algorithme affecte le contenu du modèle. |
Contenu du modèle d’exploration de données (Analysis Services - Exploration de données) Algorithmes d’exploration de données (Analysis Services - Exploration de données) |
| Découvrez maintenant que vous pouvez définir des propriétés sur le modèle qui affectent sa composition et son comportement. |
Propriétés du modèle d’exploration de données Indicateurs de modélisation (exploration de données) |
| Découvrez les interfaces programmables pour l’exploration de données. |
Développement avec Analysis Management Objects (AMO) Informations de référence sur les extensions d’exploration de données (DMX) |
| Découvrez comment utiliser les visionneuses d’exploration de données personnalisées dans Analysis Services. | Visionneuses de modèle d’exploration de données |
| Affichez des exemples de différents types de requêtes que vous pouvez utiliser sur des modèles d’exploration de données. | Requêtes d’exploration de données |
Tâches associées
Utilisez les liens suivants pour obtenir des informations plus spécifiques sur l’utilisation des modèles d’exploration de données
Voir aussi
Objets de base de données (Analysis Services - Données multidimensionnelles)