Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Vous pouvez utiliser des indicateurs de modélisation dans SQL Server Analysis Services pour fournir des informations supplémentaires à un algorithme d’exploration de données sur les données définies dans une table de cas. Ces informations permettent à l'algorithme de construire un modèle d'exploration de données plus précis.
Certains indicateurs de modélisation sont définis au niveau de la structure d’exploration de données, tandis que d’autres sont définis au niveau de la colonne du modèle d’exploration de données. Par exemple, le drapeau de modélisation NOT NULL est utilisé avec les colonnes de structure minière. Vous pouvez définir des indicateurs de modélisation supplémentaires sur les colonnes du modèle d’exploration de données, en fonction de l’algorithme que vous utilisez pour créer le modèle.
Remarque
Les plug-ins tiers peuvent avoir d’autres indicateurs de modélisation, en plus de ceux prédéfinis par Analysis Services.
Liste des drapeaux de modélisation
La liste suivante décrit les indicateurs de modélisation pris en charge dans Analysis Services. Pour plus d’informations sur les indicateurs de modélisation pris en charge par des algorithmes spécifiques, consultez la rubrique de référence technique de l’algorithme utilisé pour créer le modèle.
NOT NULL
Indique que les valeurs de la colonne d’attribut ne doivent jamais contenir de valeur Null. Une erreur se produit si Analysis Services rencontre une valeur Null pour cette colonne d’attribut pendant le processus d’entraînement du modèle.
MODEL_EXISTENCE_ONLY
Indique que la colonne sera traitée comme ayant deux états : Missing et Existing. Si la valeur est NULL, elle est traitée comme manquante. L’indicateur MODEL_EXISTENCE_ONLY est appliqué à l’attribut prédictible et est pris en charge par la plupart des algorithmes.
En effet, la définition de l’indicateur MODEL_EXISTENCE_ONLY pour True modifier la représentation des valeurs, de sorte qu’il n’y a que deux états : Missing et Existing. Tous les états non manquants sont combinés en une seule Existing valeur.
Une utilisation classique pour cet indicateur de modélisation est dans les attributs pour lesquels l’état NULL a une signification implicite et la valeur explicite de l’état NOT NULL peut ne pas être aussi importante que le fait que la colonne ait une valeur quelconque. Par exemple, une colonne [DateContractSigned] peut être NULL si un contrat n’a jamais été signé et NOT NULL si le contrat a été signé. Par conséquent, si l’objectif du modèle est de prédire si un contrat sera signé, vous pouvez utiliser l’indicateur de MODEL_EXISTENCE_ONLY pour ignorer la valeur de date exacte dans les NOT NULL cas et distinguer uniquement les cas où un contrat est Missing ou Existing.
Remarque
Missing est un état spécial utilisé par l’algorithme et diffère de la valeur de texte « Missing » dans une colonne. Pour plus d’informations, consultez Valeurs manquantes (Analysis Services - Exploration de données).
REGRESSOR
Indique que la colonne est un candidat à utiliser comme régresseur pendant le traitement. Cet indicateur est défini sur une colonne de modèle d’exploration de données et ne peut être appliqué qu’aux colonnes qui ont un type de données numérique continu. Pour plus d’informations sur l’utilisation de cet indicateur, consultez la section de cette rubrique, Utilisations de l’indicateur de modélisation REGRESSOR.
Affichage et modification des indicateurs de modélisation
Vous pouvez afficher les indicateurs de modélisation associés à une colonne de structure d’exploration de données ou une colonne de modèle dans le Concepteur d’exploration de données en affichant les propriétés de la structure ou du modèle.
Pour déterminer quels indicateurs de modélisation ont été appliqués à la structure d’exploration de données actuelle, vous pouvez créer une requête sur l’ensemble de lignes de schéma d’exploration de données qui retourne les indicateurs de modélisation uniquement pour les colonnes de structure, à l’aide d’une requête comme suit :
SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_STRUCTURE_COLUMNS
WHERE STRUCTURE_NAME = '<structure name>'
Vous pouvez ajouter ou modifier les indicateurs de modélisation utilisés dans un modèle à l’aide du Concepteur d’exploration de données et modifier les propriétés des colonnes associées. Ces modifications nécessitent le retraitement de la structure ou du modèle.
Vous pouvez spécifier des indicateurs de modélisation dans une nouvelle structure d’exploration de données ou un modèle d’exploration de données à l’aide de DMX, ou à l’aide de scripts AMO ou XMLA. Toutefois, vous ne pouvez pas modifier les indicateurs de modélisation utilisés dans un modèle et une structure d’exploration de données existants à l’aide de DMX. Vous devez créer un modèle d’exploration de données à l’aide de la syntaxe ALTER MINING STRUCTURE....ADD MINING MODEL.
Utilisations de l’indicateur de modélisation REGRESSOR
Lorsque vous définissez l’indicateur de modélisation REGRESSOR sur une colonne, vous indiquez à l’algorithme que la colonne contient des régresseurs potentiels. Les régresseurs réels utilisés dans le modèle sont déterminés par l’algorithme. Un régresseur potentiel peut être ignoré s’il ne modélise pas l’attribut prédictible.
Lorsque vous générez un modèle à l’aide de l’Assistant Exploration de données, toutes les colonnes d’entrée continue sont signalées comme étant des régresseurs possibles. Par conséquent, même si vous ne définissez pas explicitement l’indicateur REGRESSOR sur une colonne, la colonne peut être utilisée comme régresseur dans le modèle.
Vous pouvez déterminer les régresseurs qui ont été réellement utilisés dans le modèle traité en effectuant une requête sur l’ensemble de lignes de schéma pour le modèle d’exploration de données, comme illustré dans l’exemple suivant :
SELECT COLUMN_NAME, MODELING_FLAG
FROM $system.DMSCHEMA_MINING_COLUMNS
WHERE MODEL_NAME = '<model name>'
Note Si vous modifiez un modèle d’exploration de données et modifiez le type de contenu d’une colonne de continu à discret, vous devez modifier manuellement l’indicateur sur la colonne d’exploration de données, puis retraiter le modèle.
Régresseurs dans les modèles de régression linéaire
Les modèles de régression linéaire sont basés sur l’algorithme Microsoft Decision Trees. Même si vous n’utilisez pas l’algorithme Microsoft Linear Regression, tout modèle d’arbre de décision peut contenir une arborescence ou des nœuds qui représente une régression sur un attribut continu.
Par conséquent, dans ces modèles, vous n’avez pas besoin de spécifier qu’une colonne continue représente un régresseur. L’algorithme Microsoft Decision Trees partitionne le jeu de données en régions avec des modèles significatifs même si vous ne définissez pas l’indicateur REGRESSOR sur la colonne. La différence est que lorsque vous définissez l’indicateur de modélisation, l’algorithme tente de trouver des équations de régression du forme suivante pour correspondre aux motifs dans les nœuds de l'arbre.
a*C1 + b*C2 + ...
Ensuite, la somme des résidus est calculée, et si l’écart est trop grand, un fractionnement est forcé dans l’arbre.
Par exemple, si vous prévoyez un comportement d’achat client à l’aide de Income en tant qu’attribut et que vous définissez l’indicateur de modélisation REGRESSOR sur la colonne, l’algorithme essaie d’abord d’ajuster les valeurs de revenu à l’aide d’une formule de régression standard. Si l’écart est trop grand, la formule de régression est abandonnée et l’arborescence est divisée sur un autre attribut. L’algorithme d’arbre de décision essayerait ensuite d’ajuster un régresseur pour le revenu dans chacune des branches après la division.
Vous pouvez utiliser le paramètre FORCE_REGRESSOR pour garantir que l’algorithme utilisera un régresseur particulier. Ce paramètre peut être utilisé avec l’algorithme Decision Trees et l’algorithme régression linéaire.
Tâches associées
Utilisez les liens suivants pour en savoir plus sur l’utilisation des indicateurs de modélisation.
| Tâche | Sujet |
|---|---|
| Modifier des indicateurs de modélisation à l’aide du Concepteur d’exploration de données | Afficher ou modifier des indicateurs de modélisation (exploration de données) |
| Spécifier un indicateur à l’algorithme pour recommander des régresseurs probables | Spécifier une colonne à utiliser comme régresseur dans un modèle |
| Consultez les indicateurs de modélisation pris en charge par des algorithmes spécifiques (dans la section Indicateurs de modélisation pour chaque rubrique de référence d’algorithme) | Algorithmes d’exploration de données (Analysis Services - Exploration de données) |
| En savoir plus sur les colonnes de structure d’exploration de données et les propriétés que vous pouvez définir sur celles-ci | Colonnes de structure d'exploration de données |
| En savoir plus sur les colonnes de modèle d’exploration de données et les indicateurs de modélisation qui peuvent être appliqués au niveau du modèle | Colonnes du modèle d’exploration de données |
| Consultez la syntaxe permettant d’utiliser des indicateurs de modélisation dans des instructions DMX | Indicateurs de modélisation (DMX) |
| Comprendre les valeurs manquantes et comment les utiliser | Valeurs manquantes (Analysis Services - Exploration de données) |
| En savoir plus sur la gestion des modèles et des structures et la définition des propriétés d’utilisation | Déplacement d’objets d’exploration de données |