Partager via


Matrice de classification (compléments d’exploration de données SQL Server)

Bouton Matrice de classification, ruban Exploration de données

Vous pouvez utiliser la matrice de classification pour évaluer la précision d’un modèle pour la prédiction. Pour générer une matrice de classification, vous exécutez un ensemble de données de test via le modèle, et l’outil de matrice de classification compare les valeurs réelles du jeu de tests par rapport aux prédictions effectuées par le modèle. En examinant la matrice, vous pouvez indiquer en un clin d’œil la fréquence à laquelle le modèle est correct et la fréquence à laquelle il prédit mal.

Dans ces compléments, utilisez l’Assistant Matrice de classification pour sélectionner un modèle, spécifier les données de test, puis générer une matrice de résultats.

Guide pratique pour lire une matrice de classification

Supposons que votre objectif est de concevoir un programme de fidélité des clients, puis d’affecter des clients à des catégories appropriées, afin que vous puissiez leur fournir le niveau approprié d’incentives. Vous avez implémenté trois niveaux pour le programme de récompense -- bronze, argent et or - et donné ces niveaux aux clients dans une phase d’essai. Vous avez également conçu un modèle qui analyse les clients et prédit les catégories appropriées. Vous allez maintenant utiliser la matrice de classification sur les données d’évaluation pour déterminer la qualité du modèle lors de la prédiction de l’offre correcte pour tous les clients.

Le tableau de la matrice de classification vous indique le nombre de clients affectés à chaque catégorie en fonction du modèle et compare ce résultat au nombre de clients qui se sont réellement inscrits pour chaque niveau de récompense.

Bronze (actuel) Or (réel) Argent (réel)
Bronze 94,45% 15.18% 1,70 %
Or 2,72 % 84.82% 0,00%
Argent 1,84% 0,00% 93,80%
C’est bien ça 95,45% 84.82% 98,30%
Mal classé 4.55% 15.18% 1.70%
  • Chaque colonne affiche les valeurs réelles dans le jeu de données de test.

  • Chaque ligne affiche les valeurs prédites.

  • Les valeurs en gras, qui forment une diagonale du coin supérieur gauche au coin inférieur droit de la matrice, vous montrent ce que le modèle a bien saisi.

  • Toutes les autres valeurs en dehors de la diagonale représentent des erreurs. Certaines erreurs sont des faux positifs, ce qui signifie que le modèle prédit que le client rejoindreait le programme gold, mais était incorrect. Selon votre domaine, les faux positifs peuvent être très coûteux.

    D’autres sont des faux négatifs, ce qui signifie que le modèle prédit que le client ne serait pas intéressé bien qu’il ou elle ait rejoint le programme. Là encore, selon le domaine du problème, ce coût d’opportunité perdu peut être significatif.

Utilisation de l’assistant de matrice de classification

  1. Sélectionnez le modèle d’exploration de données sur lequel baser les prédictions.

  2. Sélectionnez une source de nouvelles données de test ou utilisez des données de test enregistrées avec la structure.

  3. Sélectionnez la colonne pour laquelle vous souhaitez évaluer la précision. Vous ne pouvez choisir qu’une seule colonne lors de la création d’une matrice, mais la colonne peut avoir plusieurs valeurs.

    Conseil : il peut être difficile d’interpréter une matrice de classification si votre colonne prédictible comporte de nombreuses colonnes à comparer.

    Dans la page Sélectionner des colonnes à prédire , vous pouvez également spécifier si vous souhaitez afficher le nombre de valeurs incorrectes et incorrectes, ou afficher un pourcentage.

  4. Dans la page Sélectionner les données sources, indiquez si vous utilisez des données de test externes ou les données de test enregistrées avec le modèle.

  5. Si vous utilisez des données de test externes, vous devez mapper le modèle aux colonnes d’entrée de la page Spécifier la relation de l’Assistant.

    Si vous utilisez le jeu de données de test incorporé, le mappage est effectué pour vous

  6. Cliquez sur Terminer pour exécuter des prédictions sur le modèle et générer la matrice de classification.

    L’Assistant crée un rapport qui contient la matrice de classification et d’autres détails sur l’analyse. Ce rapport est enregistré sous forme de tableau dans Excel, avec un résumé au-dessus du rapport qui indique le nombre de cas correctement prédits et le nombre de prédictions incorrectes.

Spécifications

  • Pour créer une matrice de classification, vous devez avoir accès à un modèle d’exploration de données existant et qui permet de mesurer la précision. Les modèles de prévision et les modèles d’association ne peuvent pas être mesurés à l’aide de cet outil.

  • Le modèle que vous mesurez doit prédire une valeur discrète ou déjà discrétisée.

  • Si vous n’avez pas utilisé l’option pour enregistrer un jeu de test avec votre structure ou modèle, vous devez obtenir un jeu de données d’entrée qui a essentiellement le même nombre de colonnes, avec des types de données correspondants, comme ceux utilisés dans le modèle.

  • Le modèle d’exploration de données et les nouvelles données que vous utilisez pour les tests doivent contenir au moins une colonne qui peut être prédite, et les colonnes doivent contenir le même type de données.

Problèmes connus

Dans SQL Server 2012 et SQL Server 2014, la possibilité de mapper le jeu de données de test interne au modèle ne fonctionne pas dans l’outil Matrice de classification . Toutefois, vous pouvez spécifier un jeu de données externe, puis sélectionner le jeu d’entraînement comme entrée pour déterminer l’erreur sur le jeu de données d’origine.

Voir aussi

Validation des modèles et utilisation de modèles pour la prédiction (compléments d’exploration de données pour Excel)
Explorer les données (compléments d’exploration de données SQL Server)
Détecter les catégories (Outils d’analyse de tableau pour Excel)