Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La validation est le processus d’évaluation de la performance de vos modèles d’exploration de données sur des données réelles. Il est important de valider vos modèles d’exploration de données en comprenant leur qualité et leurs caractéristiques avant de les déployer dans un environnement de production.
Cette section présente certains concepts de base liés à la qualité du modèle et décrit les stratégies de validation de modèle fournies dans Microsoft Analysis Services. Pour obtenir une vue d’ensemble de la façon dont la validation du modèle s’intègre dans le processus d’exploration de données plus volumineux, consultez Solutions d’exploration de données.
Méthodes de test et de validation des modèles d’exploration de données
Il existe de nombreuses approches pour évaluer la qualité et les caractéristiques d’un modèle d’exploration de données.
Utilisez différentes mesures de validité statistique pour déterminer s’il existe des problèmes dans les données ou dans le modèle.
Séparez les données en jeux d’entraînement et de test pour tester la précision des prédictions.
Demandez aux experts professionnels d’examiner les résultats du modèle d’exploration de données pour déterminer si les modèles découverts ont une signification dans le scénario métier ciblé
Toutes ces méthodes sont utiles dans la méthodologie d’exploration de données et sont utilisées itérativement lorsque vous créez, testez et affinez des modèles pour répondre à un problème spécifique. Aucune règle complète ne peut vous indiquer quand un modèle est suffisant ou si vous avez suffisamment de données.
Définition des critères de validation des modèles d’exploration de données
Les mesures d’exploration de données appartiennent généralement aux catégories de précision, de fiabilité et d’utilité.
La précision est une mesure de la façon dont le modèle met en corrélation un résultat avec les attributs des données fournies. Il existe différentes mesures de précision, mais toutes les mesures de précision dépendent des données utilisées. En réalité, les valeurs peuvent être manquantes ou approximatives, ou les données ont peut-être été modifiées par plusieurs processus. En particulier dans la phase d’exploration et de développement, vous pouvez décider d’accepter une certaine quantité d’erreur dans les données, en particulier si les données sont assez uniformes dans ses caractéristiques. Par exemple, un modèle qui prédit les ventes d’un magasin particulier en fonction des ventes passées peut être fortement corrélé et très précis, même si ce magasin utilise systématiquement la méthode comptable incorrecte. Par conséquent, les mesures de précision doivent être équilibrées par les évaluations de la fiabilité.
La fiabilité évalue la façon dont un modèle d’exploration de données s’exécute sur différents jeux de données. Un modèle d’exploration de données est fiable s’il génère le même type de prédictions ou trouve les mêmes types généraux de modèles, quelles que soient les données de test fournies. Par exemple, le modèle que vous générez pour le magasin qui a utilisé la méthode de comptabilité incorrecte n’est pas généralisé correctement pour d’autres magasins, et ne serait donc pas fiable.
L’utilité inclut différentes métriques qui vous indiquent si le modèle fournit des informations utiles. Par exemple, un modèle d’exploration de données qui met en corrélation l’emplacement du magasin avec les ventes peut être précis et fiable, mais peut ne pas être utile, car vous ne pouvez pas généraliser ce résultat en ajoutant d’autres magasins au même emplacement. En outre, il ne répond pas à la question fondamentale de l’entreprise de pourquoi certains emplacements ont plus de ventes. Vous pouvez également constater qu’un modèle qui semble réussi en fait est sans signification, car il est basé sur des corrélations croisées dans les données.
Outils de test et de validation des modèles d’exploration de données
Analysis Services prend en charge plusieurs approches de validation des solutions d’exploration de données, prenant en charge toutes les phases de la méthodologie de test d’exploration de données.
Partitionnement de données en jeux de test et d’entraînement.
Filtrage des modèles pour entraîner et tester différentes combinaisons des mêmes données sources.
Mesure de l’élévation et du gain. Un graphique d’élévation est une méthode de visualisation de l’amélioration obtenue à l’aide d’un modèle d’exploration de données, lorsque vous le comparez à une estimation aléatoire.
Exécution d’une validation croisée des jeux de données
Génération de matrices de classification. Ces graphiques trient de bonnes et mauvaises estimations dans une table afin que vous puissiez rapidement et facilement évaluer la précision du modèle prédit la valeur cible.
Création de nuages de points pour évaluer l’ajustement d’une formule de régression.
Création de graphiques de profit qui associent des gains financiers ou des coûts à l’utilisation d’un modèle de données minières, afin de pouvoir évaluer la valeur des recommandations.
Ces métriques ne visent pas à répondre à la question de savoir si le modèle d’exploration de données répond à votre question métier ; Ces métriques fournissent plutôt des mesures objectives que vous pouvez utiliser pour évaluer la fiabilité de vos données pour l’analytique prédictive et pour guider votre décision d’utiliser une itération particulière sur le processus de développement.
Les rubriques de cette section fournissent une vue d’ensemble de chaque méthode et vous guident tout au long du processus de mesure de la précision des modèles que vous générez à l’aide de l’exploration de données SQL Server.
Rubriques connexes
| Sujets | Liens |
|---|---|
| Découvrez comment configurer un jeu de données de test à l’aide d’un Assistant ou de commandes DMX | Jeux de données de test et d'apprentissage |
| Découvrez comment tester la distribution et la représentation des données dans une structure d’exploration de données | Validation croisée (Analysis Services - Exploration de données) |
| Découvrez les types de graphiques de précision fournis dans SQL Server 2014 Analysis Services (SSAS). |
Diagramme de levage (Services d'analyse - Exploration de données) Graphique des bénéfices (Analysis Services - Exploration de données) Nuage de points (Services d'analyse - Exploration de données) |
| Découvrez comment créer une matrice de classification, parfois appelée matrice de confusion, pour évaluer le nombre de vrais positifs et de faux positifs et négatifs. | Matrice de classification (Analysis Services - Exploration de données) |
Voir aussi
Outils d’exploration de données
Solutions d’exploration de données
Tâches de test et de validation et procédure (exploration de données)