Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Lorsque vous créez une requête sur un modèle d’exploration de données, vous pouvez créer une requête de contenu, qui fournit des détails sur les modèles découverts dans l’analyse, ou vous pouvez créer une requête de prédiction, qui utilise les modèles du modèle pour effectuer des prédictions pour les nouvelles données. Par exemple, une requête de contenu peut fournir des détails supplémentaires sur la formule de régression, tandis qu’une requête de prédiction peut vous indiquer si un nouveau point de données correspond au modèle. Vous pouvez également récupérer des métadonnées sur le modèle à l’aide d’une requête.
Cette section explique comment créer des requêtes pour des modèles basés sur l’algorithme De régression linéaire Microsoft.
Remarque
Étant donné que la régression linéaire est basée sur un cas particulier de l’algorithme Microsoft Decision Trees, il existe de nombreuses similitudes, et certains modèles d’arbre de décision qui utilisent des attributs prédictibles continus peuvent contenir des formules de régression. Pour plus d’informations, consultez Microsoft Decision Trees Algorithm Technical Reference.
Requêtes de contenu
Utilisation de DMX pour retourner la formule de régression pour le modèle
Retourner uniquement le coefficient du modèle
Requêtes de prédiction
Prédiction des revenus à l’aide d’une requête singleton
Utilisation de fonctions de prédiction avec un modèle de régression
Recherche d’informations sur le modèle de régression linéaire
La structure d’un modèle de régression linéaire est extrêmement simple : le modèle d’exploration de données représente les données sous la forme d’un nœud unique, qui définit la formule de régression. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de régression logistique (Analysis Services - Exploration de données)
Exemple de requête 1 : utilisation de l’ensemble de lignes de schéma d’exploration de données pour déterminer les paramètres utilisés pour un modèle
En interrogeant l’ensemble de lignes du schéma d’exploration de données, vous pouvez trouver des métadonnées sur le modèle. Cela peut inclure lorsque le modèle a été créé, lorsque le modèle a été traité pour la dernière fois, le nom de la structure d’exploration de données sur laquelle le modèle est basé et le nom de la colonne désignée comme attribut prévisible. Vous pouvez également retourner les paramètres utilisés lors de la création du modèle.
SELECT MINING_PARAMETERS
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_PredictIncome'
Exemples de résultats :
| PARAMÈTRES_MINIERS |
|---|
| COMPLEXITY_PENALTY=0,9 MAXIMUM_INPUT_ATTRIBUTES=255, MAXIMUM_OUTPUT_ATTRIBUTES=255, MINIMUM_SUPPORT=10, SCORE_METHOD=4, SPLIT_METHOD=3, FORCE_REGRESSOR= |
Remarque
Le paramètre « «FORCE_REGRESSOR = » indique que la valeur actuelle du paramètre FORCE_REGRESSOR est null.
Exemple de requête 2 : Récupération de la formule de régression pour le modèle
La requête suivante retourne le contenu du modèle d’exploration de données pour un modèle de régression linéaire qui a été créé à l’aide de la même source de données publipostage ciblée utilisée dans le didacticiel d’exploration de données de base. Ce modèle prédit le revenu des clients en fonction de l’âge.
La requête retourne le contenu du nœud qui contient la formule de régression. Chaque variable et coefficient est stocké dans une ligne distincte de la table NODE_DISTRIBUTION imbriquée. Si vous souhaitez afficher la formule de régression complète, utilisez la Visionneuse d'Arbre Microsoft, cliquez sur le nœud (Tout) et ouvrez la légende d'exploration.
SELECT FLATTENED NODE_DISTRIBUTION as t
FROM LR_PredictIncome.CONTENT
Remarque
Si vous référencez des colonnes individuelles de la table imbriquée à l’aide d’une requête telle que SELECT <column name> from NODE_DISTRIBUTION, certaines colonnes, telles que SUPPORT ou PROBABILITY, doivent être placées entre crochets pour les distinguer des mots clés réservés du même nom.
Résultats attendus :
| t.ATTRIBUTE_NAME | t.ATTRIBUTE_VALUE | t.SUPPORT | t.PROBABILITÉ | t.VARIANCE | t.VALUETYPE |
|---|---|---|---|---|---|
| Revenu annuel | Manquant | 0 | 0.000457142857142857 | 0 | 1 |
| Revenu annuel | 57220.8876687257 | 17484 | 0,999542857142857 | 1041275619.52776 | 3 |
| Âge | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| Âge | 234,680904692439 | 0 | 0 | 0 | 8 |
| Âge | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
En comparaison, dans la Légende de l'exploitation minière, la formule de régression apparaît comme suit :
Revenu annuel = 57 220,919 + 471,688 * (Âge - 45,427)
Vous pouvez voir que dans la légende d’exploration de données, certains nombres sont arrondis ; toutefois, la table NODE_DISTRIBUTION et la légende d’exploration de données contiennent essentiellement les mêmes valeurs.
Les valeurs de la colonne VALUETYPE vous indiquent le type d’informations contenues dans chaque ligne, ce qui est utile si vous traitez les résultats par programmation. Le tableau suivant montre les types valeur qui sont en sortie pour une formule de régression linéaire.
| TYPE DE VALEUR |
|---|
| 1 (Manquant) |
| 3 (en continu) |
| 7 (Coefficient) |
| 8 (Score gain) |
| 9 (Statistiques) |
| 7 (Coefficient) |
| 8 (Score gain) |
| 9 (Statistiques) |
| 11 (Intercept) |
Pour plus d’informations sur la signification de chaque type valeur pour les modèles de régression, consultez Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données).
Exemple de requête 3 : renvoyer uniquement le coefficient du modèle
En utilisant l’énumération VALUETYPE, vous pouvez retourner uniquement le coefficient de l’équation de régression, comme indiqué dans la requête suivante :
SELECT FLATTENED MODEL_NAME,
(SELECT ATTRIBUTE_VALUE, VALUETYPE
FROM NODE_DISTRIBUTION
WHERE VALUETYPE = 11)
AS t
FROM LR_PredictIncome.CONTENT
Cette requête retourne deux lignes, une du contenu du modèle d’exploration de données et la ligne de la table imbriquée qui contient le coefficient. La colonne ATTRIBUTE_NAME n’est pas incluse ici, car elle est toujours vide pour le coefficient.
| MODEL_NAME | t.ATTRIBUTE_VALUE | t.VALUETYPE |
|---|---|---|
| LR_PrédireRevenu | ||
| LR_PrédireRevenu | 35793.5477381267 | 11 |
Création de prédictions à partir d’un modèle de régression linéaire
Vous pouvez créer des requêtes de prédiction sur des modèles de régression linéaire à l’aide de l’onglet Prédiction du modèle d’exploration de données dans le Concepteur d’exploration de données. Le générateur de requêtes de prédiction est disponible dans SQL Server Management Studio et SQL Server Data Tools (SSDT).
Remarque
Vous pouvez également créer des requêtes sur des modèles de régression à l’aide des compléments d’exploration de données SQL Server 2005 pour Excel ou des compléments d’exploration de données SQL Server 2008 pour Excel. Même si les compléments d’exploration de données pour Excel ne créent pas de modèles de régression, vous pouvez parcourir et interroger n’importe quel modèle d’exploration de données stocké sur une instance d’Analysis Services.
Exemple de requête 4 : Prédiction du revenu à l’aide d’une requête Singleton
Le moyen le plus simple de créer une requête unique sur un modèle de régression consiste à utiliser la boîte de dialogue Entrée de requête Singleton . Par exemple, vous pouvez générer la requête DMX suivante en sélectionnant le modèle de régression approprié, en choisissant Singleton Query, puis en tapant 20 comme valeur pour Age.
SELECT [LR_PredictIncome].[Yearly Income]
From [LR_PredictIncome]
NATURAL PREDICTION JOIN
(SELECT 20 AS [Age]) AS t
Exemples de résultats :
| Revenu annuel |
|---|
| 45227.302092176 |
Exemple de requête 5 : Utilisation de fonctions de prédiction avec un modèle de régression
Vous pouvez utiliser de nombreuses fonctions de prédiction standard avec des modèles de régression linéaire. L’exemple suivant montre comment ajouter des statistiques descriptives aux résultats de la requête de prédiction. À partir de ces résultats, vous pouvez constater qu’il existe un écart considérable de la moyenne pour ce modèle.
SELECT
([LR_PredictIncome].[Yearly Income]) as [PredIncome],
(PredictStdev([LR_PredictIncome].[Yearly Income])) as [StDev1]
From
[LR_PredictIncome]
NATURAL PREDICTION JOIN
(SELECT 20 AS [Age]) AS t
Exemples de résultats :
| Revenu annuel | StDev1 |
|---|---|
| 45227.302092176 | 31827.1726561396 |
Liste des fonctions de prédiction
Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l’algorithme Microsoft Linear Regression prend en charge les fonctions supplémentaires répertoriées dans le tableau suivant.
| Fonction de prédiction | Utilisation |
| IsDescendant (DMX) | Détermine si un nœud est un enfant d’un autre nœud dans le modèle. |
| IsInNode (DMX) | Indique si le nœud spécifié contient le cas actuel. |
| PredictHistogram (DMX) | Retourne une valeur prédite ou un jeu de valeurs pour une colonne spécifiée. |
| PredictNodeId (DMX) | Retourne la Node_ID pour chaque cas. |
| PredictStdev (DMX) | Retourne l’écart type pour la valeur prédite. |
| PredictSupport (DMX) | Retourne la valeur de prise en charge pour un état spécifié. |
| PredictVariance (DMX) | Retourne la variance d’une colonne spécifiée. |
Pour obtenir la liste des fonctions communes à tous les algorithmes Microsoft, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données). Pour plus d’informations sur l’utilisation de ces fonctions, consultez Informations de référence sur les fonctions DMX (Data Mining Extensions).
Voir aussi
Algorithme de régression linéaire Microsoft
Requêtes d’exploration de données
Informations techniques de référence sur l’algorithme de régression linéaire Microsoft
Contenu du modèle d’exploration de données pour les modèles de régression linéaire (Analysis Services - Exploration de données)