Partager via


Exploration et nettoyage des données

La préparation des données est bien plus que le nettoyage des données. N’oubliez pas que la façon dont les données sont préparées affecte également la façon dont les résultats sont interprétés à la fin. La préparation des données implique ces tâches :

  • Exploration et vérification de la distribution des données.

  • Nettoyage des enregistrements incorrects et choix des colonnes pour l’exploration de données.

  • Gestion appropriée des valeurs nulles.

  • Regrouper des valeurs, ou agréger des valeurs par différents intervalles de temps.

  • Ajout d’étiquettes pour améliorer la facilité d’utilisation des résultats.

  • Conversion de types de données ou catégorisation de valeurs si nécessaire pour l’analyse.

Si vous débutez avec la modélisation des données, nous vous recommandons de lire la rubrique connexe, Check-list of Preparation for Data Mining.

Outils de préparation des données

Les compléments d’exploration de données pour Office incluent les outils suivants pour le nettoyage et la préparation des données :

Explorer les données

Utilisez l’Assistant Explorer les données pour effectuer ces tâches de préparation des données :

  • Affichez un aperçu de vos données et identifiez les erreurs qui doivent être corrigées avant l’analyse.

  • Rassemblez des informations statistiques utiles pour comprendre l’équilibre des données et les tâches de nettoyage requises.

  • Identifiez les colonnes utiles pour l’analyse et planifiez la phase de modélisation des données.

Explorer les données (compléments d’exploration de données SQL Server).

Détecter et gérer les valeurs hors norme

L’Assistant Valeurs hors norme graphe la distribution des valeurs dans vos données et vous aide à supprimer des valeurs extrêmes. Utilisez l’outil Hors norme pour les tâches de préparation des données suivantes :

  • Déterminez si les valeurs individuelles sont fiables, en fonction des modèles trouvés dans les données.

  • Passez en revue les valeurs inhabituelles et prenez des mesures en les supprimant ou en les remplaçant.

  • Limitez un modèle à une plage de valeurs spécifique. Par exemple, si vous savez que vous avez des valeurs hors norme dans un magasin particulier, vous pouvez éliminer cette valeur et obtenir un modèle qui prédit mieux les autres magasins.

Valeurs aberrantes (modules d’exploration de données SQL Server).

Données Relabel et Bin

L’Assistant Relabel classe les données par valeurs pour pouvoir modifier les étiquettes sur les données. Utilisez l’outil Relabel pour ces tâches de préparation des données :

  • Modifiez les codes numériques utilisés dans les résultats de l’enquête en description textuelle de ce que signifie le code numérique.

    Par exemple, vous pouvez remplacer des entrées de données telles que Gender = 1 par Gender = Female.

  • Bin des données, en créant des groupes pour représenter des plages de nombres.

    Par exemple, vous pouvez remplacer une colonne Revenu de nombres par des étiquettes telles que Revenu - Modéré et Revenu - Élevé.

  • Réduisez les valeurs discrètes en catégories.

    Par exemple, si vous avez trop de produits individuels pour détecter un modèle parmi les achats, vous pouvez essayer d’affecter des produits dans des catégories plus larges.

Relabel (compléments d’exploration de données SQL Server)

Nettoyer les données

Le nettoyage des données englobe un large éventail d’activités, dont la plupart sont prises en charge par les compléments

  • Identifiez les valeurs Null et déterminez s’ils doivent être modifiés en valeur réelle ou gérés en tant que Missing valeurs.

  • Détectez les valeurs manquantes, puis supprimez-les, ou imputez une valeur appropriée, telle qu’une moyenne, une valeur Null ou une autre valeur.

Explorer les données (compléments d’exploration de données SQL Server)

Relabel (compléments d’exploration de données SQL Server)

Remplissage à partir d’un exemple

Exemple de données

L'Assistant Échantillons de données fournit deux méthodes pour créer des jeux de données équilibrés pour l'entraînement des modèles et leur test.

  • Échantillonnage aléatoire. Utilisez cette option pour extraire un ensemble représentatif de données à partir d’un jeu de données plus volumineux, pour une utilisation dans l’entraînement ou le test. Les compléments d’exploration de données utilisent l’échantillonnage stratifié pour s’assurer qu’un ensemble équilibré de valeurs est obtenu pour chaque variable échantillonné.

  • Surachantillonnage. Utilisez cette option lorsque vous avez moins de données que vous le souhaitez pour un résultat cible et que vous devez pondérationr ces données plus considérablement. Par exemple, la fraude peut être relativement rare, mais vous pouvez suréchantillonner les cas impliquant une fraude afin d’obtenir des données adéquates pour la modélisation.

Exemples de données (compléments d’exploration de données SQL Server).

Voir aussi

Création d’un modèle d’exploration de données
Validation des modèles et utilisation de modèles pour la prédiction (compléments d’exploration de données pour Excel)
Déploiement et mise à l’échelle des modèles d’exploration de données (compléments d’exploration de données pour Excel)