Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Pendant la validation croisée, Analysis Services divise les données d’une structure d’exploration de données en plusieurs sections croisées, puis teste de manière itérative la structure et tous les modèles d’exploration de données associés. En fonction de cette analyse, elle génère un ensemble de mesures de précision standard pour la structure et chaque modèle.
Le rapport contient des informations de base sur le nombre de plis dans les données et la quantité de données dans chaque pli, ainsi qu’un ensemble de métriques générales qui décrivent la distribution des données. En comparant les métriques générales pour chaque section croisée, vous pouvez évaluer la fiabilité de la structure ou du modèle.
Analysis Services affiche également un ensemble de mesures détaillées pour les modèles d’exploration de données. Ces mesures dépendent du type de modèle et du type d’attribut en cours d’analyse : par exemple, s’il s’agit d’un type discret ou continu.
Cette section fournit la liste des mesures contenues dans le rapport de validation croisée et ce qu’elles signifient. Pour plus d’informations sur la façon dont chaque mesure est calculée, consultez Formules de validation croisée.
Liste des mesures dans le rapport de validation croisée
Le tableau suivant répertorie les mesures qui apparaissent dans le rapport de validation croisée. Les mesures sont regroupées par type de test, qui est fourni dans la colonne de gauche du tableau suivant. La colonne de droite répertorie le nom de la mesure telle qu’elle apparaît dans le rapport et fournit une brève explication de ce qu’elle signifie.
| Type de test | Mesures et descriptions |
|---|---|
| Regroupement | Mesures qui s’appliquent aux modèles de clustering : Probabilité de cas : cette mesure indique généralement la probabilité qu’un cas appartient à un cluster particulier. Pour la validation croisée, les scores sont additionnés, puis divisés par le nombre de cas, de sorte que le score est une probabilité moyenne de cas. |
| Catégorisation | Mesures qui s’appliquent aux modèles de classification : Vrai positif/ Vrai négatif/ Faux positif/ Faux positif : nombre de lignes ou de valeurs dans la partition où l’état prédit correspond à l’état cible, et la probabilité de prédiction est supérieure au seuil spécifié. Les cas qui ont des valeurs manquantes pour l’attribut cible sont exclus, ce qui signifie que le nombre de toutes les valeurs peut ne pas s’ajouter |
| Pass/Fail : nombre de lignes ou de valeurs dans la partition où l’état prédit correspond à l’état cible et où la valeur de probabilité de prédiction est supérieure à 0. | |
| Vraisemblance | Les mesures de probabilité s’appliquent à plusieurs types de modèles : Lift : rapport de la probabilité de prédiction réelle à la probabilité marginale dans les cas de test. Les lignes qui ont des valeurs manquantes pour l’attribut cible sont exclues. Cette mesure montre généralement combien la probabilité du résultat cible s’améliore lorsque le modèle est utilisé. Erreur Quadratique Moyenne : racine carrée de l'erreur moyenne pour tous les cas de partition, divisée par le nombre de cas dans la partition, en excluant les lignes ayant des valeurs manquantes pour l'attribut cible. RMSE est un estimateur populaire pour les modèles prédictifs. Le score moyenne les résidus pour chaque cas afin de générer un indicateur unique d’erreur de modèle. Score logarithmique : logarithme de la probabilité réelle pour chaque cas, qui est d'abord additionné, puis divisé par le nombre de lignes du jeu de données d'entrée, à l'exclusion des lignes ayant des valeurs manquantes pour l'attribut cible. Étant donné que la probabilité est représentée sous la forme d’une fraction décimale, les scores logarithmiques sont toujours des nombres négatifs. Un nombre plus proche de 0 est un meilleur score. Alors que les scores bruts peuvent avoir des distributions irrégulières ou biaisées, un score logarithmique est similaire à un pourcentage. |
| Estimation | Mesures qui s’appliquent uniquement aux modèles d’estimation, qui prédisent un attribut numérique continu : Erreur Quadratique Moyenne : Erreur moyenne observée lorsque la valeur prédite est comparée à la valeur réelle. RMSE est un estimateur populaire pour les modèles prédictifs. Le score moyenne les résidus pour chaque cas afin de générer un indicateur unique d’erreur de modèle. Erreur absolue moyenne : erreur moyenne lorsque les valeurs prédites sont comparées aux valeurs réelles, calculées comme la moyenne de la somme absolue des erreurs. L’erreur absolue moyenne est utile pour comprendre la proximité globale des prédictions sur les valeurs réelles. Un score plus petit signifie que les prédictions étaient plus précises. Score logarithmique: logarithme de la probabilité réelle de chaque cas, consolidé puis divisé par le nombre d'enregistrements du jeu de données, en excluant les enregistrements ayant des valeurs manquantes pour l'attribut cible. Étant donné que la probabilité est représentée sous la forme d’une fraction décimale, les scores logarithmiques sont toujours des nombres négatifs. Un nombre plus proche de 0 est un meilleur score. Bien que les scores bruts puissent avoir des distributions très irrégulières ou déséquilibrées, un score logarithmique est similaire à un pourcentage. |
| Agrégats | Les mesures agrégées fournissent une indication de la variance dans les résultats de chaque partition : Moyenne : moyenne des valeurs de partition pour une mesure particulière. Écart type : moyenne de l’écart par rapport à la moyenne d’une mesure spécifique, sur toutes les partitions d’un modèle. Pour la validation croisée, une valeur plus élevée pour ce score implique une variation substantielle entre les plis. |