Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Un graphique de Lift représente visuellement l’amélioration qu’un modèle de fouille de données fournit par rapport à une estimation aléatoire et mesure le changement en termes de score de lift. En comparant les scores d’élévation pour différentes parties de votre jeu de données et pour différents modèles, vous pouvez déterminer quel modèle est le mieux, et quel pourcentage des cas dans le jeu de données tirerait parti de l’application des prédictions du modèle.
Avec un graphique d’élévation, vous pouvez comparer la précision des prédictions pour plusieurs modèles qui ont le même attribut prédictible. Vous pouvez également évaluer la précision de la prédiction pour un résultat unique (une valeur unique de l’attribut prédictible) ou pour tous les résultats (toutes les valeurs de l’attribut spécifié).
Un graphique de bénéfices est un type de graphique associé qui contient les mêmes informations qu’un graphique d'élévation, mais affiche également l’augmentation prévue du bénéfice associé à l’utilisation de chaque modèle.
Présentation du graphique d’élévation
Il peut être difficile de comprendre les graphiques d’élévation dans l’abstrait. Par conséquent, pour illustrer l’utilisation des outils de graphique de levage et les informations contenues dans le graphique, cette section présente un scénario dans lequel un graphique de levage est utilisé pour estimer la réponse à une campagne de mailing ciblée.
Le service marketing dans ce scénario sait qu’un taux de réponse de 10 % est plus ou moins typique des campagnes de publipostage. Ils ont une liste de 10 000 clients potentiels stockés dans une table de la base de données. En fonction du taux de réponse classique, ils ne peuvent normalement s’attendre qu’à environ 1 000 des clients potentiels à répondre. Toutefois, l’argent alloué au projet n’est pas suffisant pour atteindre tous les 10 000 clients de la base de données et ils souhaitent améliorer leur taux de réponse. Supposons que leur budget leur permet d’envoyer une publicité à seulement 5 000 clients. Le service marketing a deux options :
Sélectionnez de façon aléatoire 5 000 clients à cibler.
Utilisez un modèle d’exploration de données pour cibler les 5 000 clients qui sont les plus susceptibles de répondre.
À l’aide d’un graphique d’élévation, vous pouvez comparer les résultats attendus des deux options. Par exemple, si l’entreprise a sélectionné au hasard 5 000 clients, elle peut s’attendre à recevoir seulement 500 réponses, en fonction du taux de réponse classique. Ce scénario est ce que représente la ligne aléatoire dans le graphique d’élévation. Toutefois, si le service marketing a utilisé un modèle d’exploration de données pour cibler son publipostage, il pourrait s’attendre à un meilleur taux de réponse, car le modèle identifierait les clients les plus susceptibles de répondre. Si le modèle était parfait, il créerait des prédictions qui ne sont jamais incorrectes, et la société pourrait s’attendre à recevoir 1 000 réponses en envoyant le publipostage juste aux 1 000 clients potentiels recommandés par le modèle. Ce scénario est ce que représente la ligne idéale dans le graphique d’élévation.
La réalité est que le modèle de mine se situe probablement entre ces deux extrêmes ; entre une estimation aléatoire et une prédiction parfaite. Toute amélioration par rapport à l'estimation aléatoire est considérée comme un gain.
Lorsque vous créez un graphique d’élévation, vous pouvez cibler une valeur et une mesure spécifiques uniquement pour ce résultat, ou vous pouvez créer une évaluation générale du modèle qui mesure les élévations pour tous les résultats possibles. Ces sélections affectent le graphique final, comme décrit dans les sections suivantes.
Courbe de gain avec valeur cible
Le graphique suivant montre un graphique d’élévation pour le modèle de publipostage ciblé que vous créez dans le didacticiel d’exploration de données de base. Dans ce graphique, l’attribut cible est [Bike Buyer] et la valeur cible est 1, ce qui signifie que le client est prédit pour acheter un vélo. Le graphique d’élévation montre ainsi l’amélioration que fournit le modèle lors de l’identification de ces clients potentiels.
Ce graphique contient plusieurs modèles basés sur les mêmes données. L’un de ces modèles a été personnalisé pour cibler des clients spécifiques. Vous pouvez personnaliser un modèle en ajoutant des filtres sur les données utilisées pour entraîner le mode. Ce filtre limite les cas utilisés dans la formation et l’évaluation aux clients âgés de moins de 30 ans. Notez qu’un effet de filtrage est que le modèle de base et le modèle filtré utilisent différents jeux de données, et par conséquent, le nombre de cas utilisés pour l’évaluation dans le graphique d’élévation est également différent. Ce point est important de se rappeler quand vous interprétez les résultats de prédiction et d’autres statistiques.
L’axe x du graphique représente le pourcentage du jeu de données de test utilisé pour comparer les prédictions. L’axe y du graphique représente le pourcentage de valeurs prédites.
La ligne droite diagonale, affichée ici en bleu, apparaît dans chaque graphique. Il représente les résultats de l’estimation aléatoire et correspond à la ligne de base par rapport à laquelle évaluer l’élévation. Pour chaque modèle que vous ajoutez à un graphique d’élévation, vous obtenez deux lignes supplémentaires : une ligne affiche les résultats idéaux pour le jeu de données d’entraînement si vous pouvez créer un modèle qui a toujours été prédit parfaitement, et la deuxième ligne montre l’élévation réelle, ou l’amélioration des résultats, pour le modèle.
Dans cet exemple, la ligne idéale pour le modèle filtré est affichée en bleu foncé et la ligne pour l’élévation réelle en jaune. Vous pouvez voir sur le graphique que la ligne idéale atteint un pic à environ 40 pour cent, ce qui signifie que si vous aviez un modèle parfait, vous pourriez atteindre 100 pour cent de vos cibles visées en envoyant un publipostage à seulement 40% de la population totale. L’élévation réelle du modèle filtré lorsque vous ciblez 40 % de la population est comprise entre 60 et 70 %, ce qui signifie que vous pouvez atteindre 60 à 70 % de vos clients ciblés en envoyant le publipostage à 40 % de la population totale des clients.
La légende du mining contient les valeurs exactes à chaque point des courbes. Vous pouvez modifier l’emplacement mesuré en cliquant sur la barre grise verticale et en la déplaçant. Dans le graphique, la ligne grise a été déplacée à 30 pour cent, car c’est le point où les modèles filtrés et non filtrés semblent être les plus efficaces. Après ce point, l’efficacité diminue.
La Légende Minière contient également des scores et des statistiques qui vous aident à interpréter le graphique. Ces résultats représentent la précision du modèle sur la ligne grise, qui, dans ce scénario, est positionnée pour inclure 30 % des cas de test globaux.
| Séries et modèles | Résultat | Population cible | Prédire la probabilité |
|---|---|---|---|
| Publipostage ciblé tout | 0.71 | 47.40% | 61.38% |
| Publipostage ciblé inférieur à 30 | 0,85 | 51.81% | 46.62% |
| Modèle de estimation aléatoire | 31.00% | ||
| Modèle idéal pour : envoi de courriers ciblé | 62.48% | ||
| Modèle idéal pour : Publipostage ciblé sous 30 | 65.28% |
Interprétation des résultats
À partir de ces résultats, vous pouvez constater que, lorsqu’ils sont mesurés à 30 % de tous les cas, le modèle général [Publipostage ciblé tout], peut prédire le comportement d’achat de vélo de 47,40% de la population cible. En d’autres termes, si vous avez envoyé un publipostage ciblé à seulement 30 % des clients de votre base de données, vous pourriez atteindre un peu moins de la moitié de votre public cible. Si vous avez utilisé le modèle filtré, vous pourriez obtenir des résultats légèrement meilleurs et atteindre environ 51 % de vos clients ciblés.
La valeur de la probabilité Predict représente le seuil requis pour inclure un client parmi les cas « susceptibles d’acheter ». Pour chaque cas, le modèle estime la précision de chaque prédiction et stocke cette valeur, que vous pouvez utiliser pour filtrer ou cibler les clients. Par exemple, pour identifier les clients du modèle de base qui sont probablement des acheteurs, vous utiliseriez une requête pour récupérer des cas avec une probabilité de prédiction d’au moins 61 %. Pour obtenir les clients ciblés par le modèle filtré, vous devez créer une requête qui a récupéré des cas qui répondent à tous les critères : âge et PredictProbability valeur d’au moins 46 %.
Il est intéressant de comparer les modèles. Le modèle filtré semble capturer plus de clients potentiels, mais lorsque vous ciblez des clients avec un score de probabilité de prédiction de 46 pour cent, vous avez également une chance de 53 pour cent d’envoyer un publipostage à une personne qui n’achètera pas de vélo. Par conséquent, si vous décidez quel modèle est préférable, vous souhaitez équilibrer la précision et la taille cible plus petite du modèle filtré par rapport à la sélection du modèle de base.
La valeur du score vous permet de comparer des modèles en calculant l’efficacité du modèle sur une population normalisée. Un score plus élevé est préférable. Dans ce cas, vous pouvez décider que cibler les clients de moins de 30 est la stratégie la plus efficace, malgré la probabilité de prédiction inférieure.
Graphique de lift pour un modèle sans valeur cible
Si vous ne spécifiez pas l’état de la colonne prévisible, vous créez le type de graphique illustré dans le diagramme suivant. Ce graphique montre comment le modèle s’exécute pour tous les états de l’attribut prédictible. Par exemple, ce graphique vous indiquerait comment le modèle prédit les deux clients susceptibles d’acheter un vélo, et ceux qui sont peu susceptibles d’acheter un vélo.
L’axe x est le même que dans le graphique avec la colonne prédictible spécifiée, mais l’axe y représente désormais le pourcentage de prédictions correctes. Par conséquent, la ligne idéale est la ligne diagonale, qui montre qu’à 50 % des données, le modèle prédit correctement 50% des cas, le maximum qui peut être attendu.
Vous pouvez cliquer dans le graphique pour déplacer la barre grise verticale, et la Légende de traitement des données affiche le pourcentage total de cas, ainsi que le pourcentage de cas prédits correctement. Par exemple, si vous positionnez la barre de curseur grise à la marque de 50 %, la légende minière affiche les scores de précision suivants. Ces chiffres sont basés sur le modèle d’arborescence TM_Decision créé dans le didacticiel d’exploration de données de base.
| Série, modèle | Résultat | Population cible | Prédire la probabilité |
|---|---|---|---|
| arbre de décision TM | 0.77 | 40,50% | 72.91% |
| Modèle idéal | 50,00% |
Ce tableau vous indique qu’à 50 % de la population, le modèle que vous avez créé prédit correctement 40 % des cas. Vous pouvez considérer cela comme un modèle raisonnablement précis. Toutefois, n’oubliez pas que ce modèle particulier prédit toutes les valeurs de l’attribut prédictible. Par conséquent, le modèle peut être précis pour prédire que 90 pour cent des clients n’achèteront pas de vélo.
Restrictions sur les graphiques d’élévation
Les graphiques d’élévation nécessitent que l’attribut prédictible soit une valeur discrète. En d’autres termes, vous ne pouvez pas utiliser de graphiques de lift pour mesurer la précision des modèles qui prédisent des valeurs numériques continues.
La précision de prédiction pour toutes les valeurs discrètes de l’attribut prédictible est affichée dans une seule ligne. Si vous souhaitez afficher des lignes de précision de prédiction pour une valeur individuelle de l’attribut prédictible, vous devez créer un graphique d’élévation distinct pour chaque valeur ciblée.
Vous pouvez ajouter plusieurs modèles à une courbe de lift, tant que les modèles ont tous le même attribut prévisible. Les modèles qui ne partagent pas l’attribut ne seront pas disponibles pour la sélection sous l’onglet Entrée .
Vous ne pouvez pas afficher les modèles de séries chronologiques dans un graphique de lift ou un graphique à bénéfices. Une pratique courante pour mesurer la précision des prédictions de série chronologique consiste à réserver une partie des données historiques et à comparer ces données aux prédictions. Pour plus d’informations, consultez l’algorithme Microsoft Time Series.