Partager via


Test de précision avec des courbes de lift (didacticiel de base sur l'exploration de données)

Sous l’onglet Graphique de précision de l’exploration de données du Concepteur d’exploration de données, vous pouvez calculer la façon dont chacun de vos modèles effectue des prédictions et comparer les résultats de chaque modèle directement aux résultats des autres modèles. Cette méthode de comparaison est appelée graphique d’élévation. En règle générale, la précision prédictive d’un modèle d’exploration de données est mesurée par l’élévation ou la précision de classification. Pour ce tutoriel, nous allons utiliser uniquement le diagramme de levage.

Dans cette rubrique, vous allez effectuer les tâches suivantes :

Choix des données d’entrée

La première étape du test de la précision de vos modèles d’exploration de données consiste à sélectionner la source de données que vous allez utiliser pour les tests. Vous allez tester la façon dont les modèles fonctionnent sur vos données de test, puis vous les utiliserez avec des données externes.

Pour sélectionner le jeu de données

  1. Passez à l’onglet Graphique de précision de l'exploration de données dans SQL Server Data Tools (SSDT) et sélectionnez l’onglet Sélection d’entrée.

  2. Dans la zone Sélectionner le jeu de données à utiliser pour la zone de groupe Histogramme de précision , sélectionnez Utiliser les cas de test de structure d’exploration de données. Il s’agit des données de test que vous avez mises de côté lors de la création de la structure d’exploration de données.

    Pour plus d’informations sur les autres options, consultez Choisir un type de graphique de précision et définir des options de graphique.

Définition des paramètres de graphique de précision

Pour créer un graphique de précision, vous devez définir trois éléments :

  • Quels modèles devez-vous inclure dans le graphique de précision ?

  • Quel attribut prédictible voulez-vous mesurer ? Certains modèles peuvent avoir plusieurs cibles, mais chaque graphique ne peut mesurer qu’un seul résultat à la fois.

    Pour utiliser une colonne comme Nom de colonne prédictif dans un graphique de précision, les colonnes doivent avoir le type d’utilisation de Predict ou Predict Only. En outre, le type de contenu de la colonne cible doit être soit Discrete soit Discretized. En d’autres termes, vous ne pouvez pas mesurer la précision par rapport aux sorties numériques continues à l’aide du graphique d’élévation.

  • Voulez-vous mesurer l’exactitude générale du modèle ou sa précision dans la prédiction d’une valeur particulière (telle que [Bike Buyer] = 'Oui')

Pour générer le graphique d’élévation

  1. Sous l’onglet Sélection d'Entrée du Concepteur d’exploration de données, sous Sélectionner les colonnes prévisibles du modèle d’exploration de données à afficher dans le graphique Lift, cochez la case pour Synchroniser les Colonnes et les Valeurs de Prédiction.

  2. Dans la colonne Nom de colonne prévisible , vérifiez que Bike Buyer est sélectionné pour chaque modèle.

  3. Dans la colonne Afficher , sélectionnez chacun des modèles.

    Par défaut, tous les modèles de la structure d’exploration de données sont sélectionnés. Vous pouvez décider de ne pas inclure de modèle, mais pour ce didacticiel, laissez tous les modèles sélectionnés.

  4. Dans la colonne Prédire la valeur , sélectionnez 1. La même valeur est automatiquement renseignée pour chaque modèle qui a la même colonne prédictible.

  5. Sélectionnez l’onglet Lift Chart .

    Lorsque vous cliquez sur l’onglet, une requête de prédiction est exécutée pour obtenir des prédictions pour les données de test, et les résultats sont comparés aux valeurs connues. Les résultats sont tracés sur le graphique.

    Si vous avez spécifié un résultat cible particulier à l’aide de l’option Prédire la valeur , le graphique lift trace les résultats des estimations aléatoires et les résultats d’un modèle idéal.

    • La ligne de estimation aléatoire indique la précision du modèle sans utiliser de données pour informer ses prédictions : autrement dit, un fractionnement de 50 à 50 entre deux résultats. Le graphique d’élévation vous aide à visualiser la meilleure performance de votre modèle par rapport à une estimation aléatoire.

    • La ligne de modèle idéale représente la limite supérieure de précision. Il vous montre l’avantage maximal possible que vous pourriez obtenir si votre modèle a toujours prédit avec précision.

    Les modèles d’exploration de données que vous avez créés se situent généralement entre ces deux extrêmes. Toute amélioration de l’estimation aléatoire est considérée comme augmentation.

  6. Utilisez la légende pour localiser les lignes colorées représentant le modèle idéal et le modèle de deviner aléatoire.

    Vous remarquerez que le TM_Decision_Tree modèle offre le plus grand lift, en surperformant à la fois les modèles Clustering et Naive Bayes.

Pour une explication détaillée d'un graphique de levage similaire à celui créé dans cette leçon, consultez Lift Chart (Analysis Services - Exploration de données).

Tâche suivante de la leçon

Test d’un modèle filtré (didacticiel d’exploration de données de base)

Voir aussi

Diagramme de levage (Services d'analyse - Exploration de données)
Onglet Lift Chart (Vue du graphique de précision de l’exploration de données)