Partager via


Formules de validation croisée

Lorsque vous générez un rapport de validation croisée, il contient des mesures de précision pour chaque modèle, selon le type de modèle d’exploration de données (autrement dit, l’algorithme utilisé pour créer le modèle), le type de données de l’attribut prédictible et la valeur d’attribut prévisible, le cas échéant.

Cette section répertorie les mesures utilisées dans le rapport de validation croisée et décrit la méthode de calcul.

Pour obtenir une répartition des mesures de précision par type de modèle, consultez Mesures dans le rapport de validation croisée.

Formules utilisées pour les mesures de validation croisée

Remarque

Important: Ces mesures de précision sont calculées pour chaque attribut cible. Pour chaque attribut, vous pouvez spécifier ou omettre une valeur cible. Si un cas dans le jeu de données n’a aucune valeur pour l’attribut cible, le cas est traité comme ayant une valeur spéciale appelée valeur manquante. Les lignes qui ont des valeurs manquantes ne sont pas comptabilisées lors du calcul de la mesure de précision pour un attribut cible particulier. Notez que, étant donné que les scores sont calculés individuellement pour chaque attribut, si les valeurs sont présentes pour l’attribut cible, mais manquantes pour d’autres attributs, elle n’affecte pas le score de l’attribut cible.

Mesure S’applique à Implémentation
Vrai positif Attribut discret, la valeur est spécifiée Nombre de cas répondant à ces conditions :

Case contient la valeur cible.

Le modèle prédit que ce cas contient la valeur cible.
Vrai négatif Attribut discret, la valeur est spécifiée Nombre de cas répondant à ces conditions :

La casse ne contient pas la valeur cible.

Le modèle prédit que ce cas ne contient pas la valeur cible.
Faux positif Attribut discret, la valeur est spécifiée Nombre de cas répondant à ces conditions :

La valeur réelle est égale à la valeur cible.

Le modèle prédit que ce cas contient la valeur cible.
Faux négatif Attribut discret, la valeur est spécifiée Nombre de cas répondant à ces conditions :

Valeur réelle non égale à la valeur cible.

Le modèle prédit que ce cas ne contient pas la valeur cible.
Passer/échouer Attribut discret, aucune cible spécifiée Nombre de cas répondant à ces conditions :

Passe si l’état prédit avec la probabilité la plus élevée est le même que l’état d’entrée et la probabilité est supérieure à la valeur du seuil d’état.

Sinon, cela échouera.
Lever Attribut discret. La valeur cible peut être spécifiée, mais n’est pas obligatoire. Log-vraisemblance moyenne pour toutes les lignes ayant des valeurs pour l'attribut cible, où la vraisemblance logarithmique pour chaque cas est calculée comme Log(ProbabilitéRéelle/ProbabilitéMarginale). Pour calculer la valeur moyenne, la somme des valeurs de vraisemblance logarithmiques est divisée par le nombre de lignes du jeu de données fourni, en excluant les lignes dont l'attribut cible a des valeurs manquantes.

L’élévation peut être une valeur négative ou positive. Une valeur positive signifie un modèle efficace qui dépasse l’estimation aléatoire.
Score de log Attribut discret. La valeur cible peut être spécifiée, mais n’est pas obligatoire. Journal de la probabilité réelle pour chaque cas, additionné, puis divisé par le nombre de lignes dans le jeu de données d’entrée, à l’exclusion des lignes avec des valeurs manquantes pour l’attribut cible.

Étant donné que la probabilité est représentée sous la forme d’une fraction décimale, les scores logarithmiques sont toujours des nombres négatifs. Un score plus proche de 0 est un meilleur score.
Probabilité de cas Groupe Somme des scores de probabilité de cluster pour tous les cas, divisés par le nombre de cas dans la partition, à l’exclusion des lignes avec des valeurs manquantes pour l’attribut cible.
Erreur absolue moyenne Attribut continu Somme de l’erreur absolue pour tous les cas de la partition, divisée par le nombre de cas dans la partition.
Erreur quadratique moyenne Attribut continu Racine carrée de l'erreur quadratique moyenne de la partition.
Erreur quadratique moyenne Attribut discret. La valeur cible peut être spécifiée, mais n’est pas obligatoire. Racine carrée de la moyenne des carrés de complément du score de probabilité, divisée par le nombre de cas dans la partition, en excluant les lignes contenant des valeurs manquantes pour l’attribut cible.
Erreur quadratique moyenne Attribut discret, aucune cible spécifiée. Racine carrée de la moyenne des carrés de complément du score de probabilité, divisée par le nombre de cas dans la partition, à l’exception des cas avec des valeurs manquantes pour l’attribut cible.

Voir aussi

Test et validation (exploration de données)
Validation croisée (Analysis Services - Exploration de données)