Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Une matrice de classification trie tous les cas du modèle en catégories, en déterminant si la valeur prédite correspond à la valeur réelle. Tous les cas de chaque catégorie sont ensuite comptés, et les totaux sont affichés dans la matrice. La matrice de classification est un outil standard pour l’évaluation des modèles statistiques et est parfois appelé matrice de confusion.
Le graphique créé lorsque vous choisissez l’option Matrice de classification compare les valeurs réelles aux valeurs prédites pour chaque état prédit que vous spécifiez. Les lignes de la matrice représentent les valeurs prédites pour le modèle, tandis que les colonnes représentent les valeurs réelles. Les catégories utilisées dans l’analyse sont faux positifs, vrai positif, faux négatif et vrai négatif
Une matrice de classification est un outil important pour évaluer les résultats de la prédiction, car il facilite la compréhension et la prise en compte des effets des prédictions incorrectes. En affichant la quantité et les pourcentages dans chaque cellule de cette matrice, vous pouvez rapidement voir la fréquence à laquelle le modèle a prédit avec précision.
Cette section explique comment créer une matrice de classification et comment interpréter les résultats.
Présentation de la matrice de classification
Considérez le modèle que vous avez créé dans le cadre du didacticiel d’exploration de données de base. Le modèle [TM_DecisionTree] est utilisé pour aider à créer une campagne de publipostage ciblée et peut être utilisé pour prédire quels clients sont les plus susceptibles d’acheter un vélo. Pour tester cette utilité attendue de ce modèle, vous utilisez un jeu de données pour lequel les valeurs de l’attribut de résultat , [Bike Buyer], sont déjà connues. En règle générale, vous utilisez le jeu de données de test que vous avez mis de côté lorsque vous avez créé la structure d’exploration de données utilisée pour l’apprentissage du modèle.
Il n’y a que deux résultats possibles : oui (le client est susceptible d’acheter un vélo) et non (le client n’achètera probablement pas de vélo). Par conséquent, la matrice de classification résultante est relativement simple.
Interprétation des résultats
Le tableau suivant montre la matrice de classification du modèle TM_DecisionTree. N’oubliez pas que pour cet attribut prévisible, 0 signifie Non et 1 signifie Oui.
| Prédit | 0 (Réel) | 1 (Réel) |
|---|---|---|
| 0 | 362 | 144 |
| 1 | 121 | 373 |
La première cellule de résultat, qui contient la valeur 362, indique le nombre de vrais positifs pour la valeur 0. Étant donné que 0 indique que le client n’a pas acheté de vélo, cette statistique vous indique que le modèle a prédit la valeur correcte pour les non-acheteurs de vélos dans 362 cas.
La cellule située directement en dessous de celle-ci, qui contient la valeur 121, vous indique le nombre de faux positifs ou le nombre de fois où le modèle a prédit qu’une personne achèterait un vélo quand elle ne l’a pas fait.
La cellule qui contient la valeur 144 indique le nombre de faux positifs pour la valeur 1. Parce que 1 signifie que le client a acheté un vélo, cette statistique vous indique que dans 144 cas, le modèle prédit que quelqu’un n’achèterait pas de vélo quand en fait ils l’ont fait.
Enfin, la cellule qui contient la valeur 373 indique le nombre de vrais positifs pour la valeur cible de 1. En d’autres termes, dans 373 cas, le modèle prédit correctement que quelqu’un achèterait un vélo.
En additionnant les valeurs dans les cellules adjacentes en diagonale, vous pouvez déterminer la précision globale du modèle. Une diagonale vous indique le nombre total de prédictions précises, et l’autre diagonale vous indique le nombre total de prédictions erronées.
Utilisation de plusieurs valeurs prévisibles
Le cas [Bike Buyer] est particulièrement facile à interpréter, car il n’y a que deux valeurs possibles. Lorsque l’attribut prédictible a plusieurs valeurs possibles, la matrice de classification ajoute une nouvelle colonne pour chaque valeur réelle possible, puis compte le nombre de correspondances pour chaque valeur prédite. Le tableau suivant présente les résultats d’un modèle différent, où trois valeurs (0, 1, 2) sont possibles.
| Prédit | 0 (Réel) | 1 (Réel) | 2 (Réel) |
|---|---|---|---|
| 0 | 111 | 3 | 5 |
| 1 | 2 | 123 | 17 |
| 2 | 19 | 0 | 20 |
Bien que l’ajout de colonnes supplémentaires rend le rapport plus complexe, les détails supplémentaires peuvent être très utiles lorsque vous souhaitez évaluer le coût cumulatif d’une prédiction incorrecte. Pour créer des sommes sur les diagonales ou comparer les résultats pour différentes combinaisons de lignes, vous pouvez cliquer sur le bouton Copier fourni dans l’onglet Matrice de classification et coller le rapport dans Excel. Vous pouvez également utiliser un client tel que le client d’exploration de données pour Excel, qui prend en charge SQL Server 2005 et versions ultérieures, pour créer un rapport de classification directement dans Excel qui inclut à la fois des nombres et des pourcentages. Pour plus d’informations, consultez l’exploration de données SQL Server.
Restrictions sur la matrice de classification
Une matrice de classification ne peut être utilisée qu’avec des attributs prédictibles discrets.
Bien que vous puissiez ajouter plusieurs modèles lors de la sélection de modèles sous l’onglet Sélection d’entrée du concepteur graphique de précision de l’exploration de données, l’onglet Matrice de classification affiche une matrice distincte pour chaque modèle.
Contenu associé
Les rubriques suivantes contiennent plus d’informations sur la façon dont vous pouvez créer et utiliser des matrices de classification et d’autres graphiques.
| Sujets | Liens |
|---|---|
| Fournit une procédure pas à pas pour créer un graphique lift-chart pour le modèle de publipostage ciblé. |
Tutoriel d’introduction à l’exploration de données Test de la précision avec des graphiques de levage (tutoriel de base sur l’exploration de données) |
| Explique les types de graphiques associés. |
Diagramme de levage (Services d'analyse - Exploration de données) Graphique des bénéfices (Analysis Services - Exploration de données) Nuage de points (Services d'analyse - Exploration de données) |
| Décrit les utilisations de la validation croisée pour les modèles d’exploration de données et les structures d’exploration de données. | Validation croisée (Analysis Services - Exploration de données) |
| Décrit les étapes de création de graphiques d’élévation et d’autres graphiques de précision. | Tâches de test et de validation et procédure (exploration de données) |