Partager via


Valeurs aberrantes (compléments d’exploration de données SQL Server)

Assistant des anomalies dans le ruban Exploration de données

Une valeur hors norme signifie une valeur de données problématique pour l’une des raisons suivantes :

  • La valeur est en dehors de la plage attendue.

  • Les données ont peut-être été entrées de manière incorrecte.

  • La valeur est manquante.

  • Les données se composent d’un espace ou d’une autre chaîne Null.

  • La valeur est exacte, mais elle est tellement en dehors de la distribution qu'elle peut affecter considérablement le modèle.

Le client d’exploration de données pour Excel vous aide à détecter ces données, puis à mettre à jour les valeurs ou à les supprimer. Par exemple, vous pouvez remplacer les valeurs hors norme par une moyenne arithmétique, ou supprimer des lignes qui contiennent des valeurs potentiellement incorrectes.

Gestion des valeurs hors norme

L'Assistant Suppression des valeurs aberrantes vous offre plusieurs outils pour gérer les valeurs aberrantes de façon appropriée :

  • Tout d’abord, vous pouvez explorer les données pour mieux comprendre la distribution des valeurs et la relation des valeurs hors norme à d’autres données.

    Par exemple, vous pouvez utiliser la tâche Explorer les données pour passer en revue et corriger les valeurs. L'Assistant Suppression de valeurs hors norme affiche également un graphique, soit un graphique linéaire, soit un graphique à barres, pour vous aider à comprendre la distribution de toutes les valeurs.

  • Ensuite, vous pouvez utiliser l’Assistant Valeurs hors norme pour supprimer ou modifier les valeurs hors norme. La méthode que vous utilisez varie selon que les valeurs sont discrètes ou continues.

    L’assistant affiche des valeurs discrètes dans un histogramme, où chaque barre représente une valeur spécifique, et la hauteur de la barre indique le nombre de cas correspondant à chaque valeur. En glissant le contrôle seuil sur le graphique, vous pouvez couper les barres qui représentent des groupes de valeurs extrêmes ou potentiellement incorrectes.

  • L’Assistant affiche des valeurs continues sur un graphique à barres ou un graphique en courbes. Sur le graphique en courbes, la valeur est représentée sur l’axe x et le nombre de valeurs sur l’axe y.

    Vous pouvez contrôler s’il faut supprimer ou conserver des valeurs aux extrémités basses et élevées du graphique en modifiant les valeurs Minimale et Maximale , ou en glissant les barres. Lorsque vous modifiez les paramètres de valeur minimale et maximale, les données qui seront supprimées sont affichées en ombrage dans le graphique.

Une fois que vous avez sélectionné les valeurs hors norme à utiliser, vous indiquez à l’Assistant comment gérer les valeurs hors norme. Vous pouvez supprimer les lignes qui contiennent les valeurs hors norme, ou vous pouvez spécifier une valeur de remplacement, telle qu’une moyenne, une valeur Null ou une autre valeur de votre choix.

Enfin, l’Assistant vous propose quelques options pour afficher les nouvelles données. Vous pouvez remplacer les données d’origine par les nouvelles valeurs, ajouter une nouvelle colonne à la table contenant les nouvelles valeurs ou créer une feuille de calcul contenant les données mises à jour.

Utilisation de l’Assistant Hors norme

  1. Dans le ruban Exploration de données , cliquez sur Nettoyer les données, puis sélectionnez Valeurs hors norme.

  2. Dans la boîte de dialogue Sélectionner des données sources , sélectionnez un tableau de données Excel ou une plage de cellules, puis cliquez sur Suivant.

    Avertissement

    Vous ne pouvez pas utiliser l’Assistant Valeurs aberrantes sur les données externes, sauf si vous les copiez d’abord dans Excel.

  3. Dans la boîte de dialogue Sélectionner une colonne , sélectionnez une seule colonne.

    Cliquez sur Suivant.

  4. Dans la boîte de dialogue Spécifier des seuils, passez en revue la distribution des données.

    • Si la colonne contient des valeurs discrètes, l’Assistant affiche un histogramme contenant le nombre de chaque valeur discrète.

      En supposant que les valeurs hors norme sont des valeurs rares, vous pouvez les filtrer en modifiant la valeur minimale .

    • Si la colonne contient des données numériques, vous pouvez cliquer sur le bouton Afficher en tant que discret ou le bouton Afficher sous forme numérique pour basculer entre l’affichage des valeurs dans un graphique à barres ou un graphique en courbes.

  5. Dans la boîte de dialogue Spécifier des seuils , choisissez la plage de données à conserver en tapant une valeur minimale et maximale, ou en faisant glisser les barres du curseur. Cliquez sur Suivant.

  6. Dans la boîte de dialogue Gestion hors norme , spécifiez si vous souhaitez que les valeurs soient supprimées ou remplacées, puis cliquez sur Suivant.

  7. Dans la boîte de dialogue Sélectionner la destination , spécifiez l’emplacement où vous souhaitez enregistrer les nouvelles données.

L’Assistant fournit ces options :

Options Commentaire
Sélectionner une colonne Vous ne pouvez utiliser qu’une seule colonne à la fois.
Spécifier la gestion des seuils Définissez un seuil à l’aide de Minimum pour exclure les valeurs trouvées dans moins de lignes que la valeur de seuil.

Initialement, la valeur dans Minimum est égale à la valeur avec les lignes les plus rares, et vous ne pouvez pas faire le minimum inférieur à cette valeur.
Gestion hors norme Si vous décidez de supprimer des valeurs hors norme, vous pouvez modifier les données de la feuille de calcul active ou créer une copie des données dans une nouvelle feuille de calcul.

Voir aussi

Explorer les données (compléments d’exploration de données SQL Server)