Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Data Wrangler accélère votre workflow de préparation des données en fournissant une interface visuelle immersive pour l’analyse exploratoire des données. Dans cet article, vous allez apprendre à :
- Lancer Data Wrangler à partir de votre notebook Fabric
- Explorer les données avec des visualisations interactives et des statistiques récapitulatives
- Appliquer des opérations courantes de nettoyage des données avec la génération de code automatique
- Exporter des fonctions pandas ou PySpark réutilisables vers votre carnet de notes
Cet article se concentre sur les DataFrames pandas. Pour les DataFrames Spark, consultez cette ressource.
Prérequis
Obtenir un abonnement Microsoft Fabric. Ou, inscrivez-vous pour un essai gratuit de Microsoft Fabric.
Connectez-vous à Microsoft Fabric.
Basculez vers Fabric à l’aide du sélecteur d’expérience situé en bas à gauche de votre page d’accueil.
Limites
- Actuellement, les opérations de code personnalisées prennent uniquement en charge les DataFrames pandas.
- L’affichage Data Wrangler fonctionne le mieux sur les grands moniteurs. Toutefois, vous pouvez réduire ou masquer différentes parties de l’interface pour prendre en charge des écrans plus petits.
Lancement de Data Wrangler
Vous pouvez lancer « Data Wrangler » directement à partir d’un notebook Microsoft Fabric pour explorer et transformer tout DataFrame Pandas ou Spark.
Pour commencer à utiliser des exemples de données :
Cet extrait de code montre comment lire des exemples de données dans un DataFrame pandas :
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
Dans l’onglet « Accueil » du ruban du bloc-notes, utilisez la liste déroulante Data Wrangler pour parcourir les DataFrames actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.
Conseil
Vous ne pouvez pas ouvrir Data Wrangler pendant que le noyau du notebook est occupé. Une cellule en cours d’exécution doit se terminer avant que Data Wrangler puisse démarrer, comme illustré dans cette capture d’écran :
Choix d’échantillons personnalisés
Pour ouvrir un exemple personnalisé de tout DataFrame actif avec Data Wrangler, sélectionnez Choisir un exemple personnalisé dans la liste déroulante, comme illustré dans cette capture d’écran :
Cette action ouvre une boîte de dialogue avec des options pour spécifier la taille de l’échantillon souhaité (nombre de lignes) et la méthode d’échantillonnage (premiers enregistrements, derniers enregistrements ou ensemble aléatoire). Les 5 000 premières lignes du DataFrame servent de taille d’exemple par défaut, comme illustré dans cette capture d’écran :
Affichage des statistiques récapitulatives
Lorsque Data Wrangler se charge, il affiche une vue d’ensemble descriptive du DataFrame choisi dans le panneau Résumé . Cette vue d’ensemble inclut des informations sur les dimensions du DataFrame, les valeurs manquantes et bien plus encore. Lorsque vous sélectionnez une colonne dans la grille Data Wrangler, le panneau Résumé est mis à jour pour afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.
Conseil
Les statistiques et visuels spécifiques aux colonnes (dans le volet Résumé et dans les en-têtes de colonne) dépendent du type de données de colonne. Par exemple, un histogramme groupé d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est paramétrée en format numérique, comme indiqué dans cette capture d’écran :
Parcourir les opérations de nettoyage des données
Le panneau Opérations fournit une liste pouvant faire l’objet d’une recherche d’opérations de nettoyage des données. Lorsque vous sélectionnez une opération de nettoyage des données dans le volet Opérations , vous devez fournir une colonne ou des colonnes cibles, ainsi que tous les paramètres nécessaires pour terminer l’opération. Par exemple, l’invite permettant de mettre à l’échelle numériquement une colonne nécessite une nouvelle plage de valeurs, comme indiqué dans cette capture d’écran :
Conseil
Vous pouvez appliquer une plus petite sélection d’opérations à partir du menu de chaque en-tête de colonne, comme indiqué dans cette capture d’écran :
Aperçu et application d’opérations
La grille d’affichage de Data Wrangler prévisualise automatiquement les résultats d’une opération sélectionnée et le code correspondant apparaît automatiquement dans le panneau situé sous la grille. Pour valider le code préversion, sélectionnez Appliquer à l’un ou l’autre emplacement. Pour supprimer le code préversion et essayer une nouvelle opération, sélectionnez Ignorer comme illustré dans cette capture d’écran :
Une fois que vous avez appliqué une opération, la grille d’affichage de Data Wrangler et les statistiques récapitulatives sont mises à jour pour refléter les résultats. Le code apparaît dans la liste en cours d’exécution des opérations validées dans le panneau Étapes de nettoyage , comme illustré dans cette capture d’écran :
Conseil
Vous pouvez toujours annuler l’étape la plus récente appliquée. Dans le panneau Étapes de nettoyage , une corbeille peut s’afficher lorsque vous pointez votre curseur sur l’étape la plus récente appliquée, comme illustré dans cette capture d’écran :
Ce tableau récapitule les opérations actuellement prises en charge par Data Wrangler :
| Opération | Description |
|---|---|
| Tri | Trier une colonne par ordre croissant ou décroissant |
| Filter | Filtrer les lignes en fonction d’une ou plusieurs conditions |
| Codage à chaud | Créer des colonnes pour chaque valeur unique dans une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne |
| Binarisation de texte multi-étiquette | Fractionner des données à l’aide d’un séparateur et créer de nouvelles colonnes pour chaque catégorie, en marquant 1 si une ligne a cette catégorie et 0 si elle ne le fait pas |
| Modifier le type de colonne | Modifier le type de données d’une colonne |
| Supprimer la colonne | Supprimer une ou plusieurs colonnes |
| Sélectionner une colonne | Choisir une ou plusieurs colonnes à conserver, puis supprimer le reste |
| Renommer la colonne | Renommer une colonne |
| Supprimer les valeurs manquantes | Supprimer les lignes avec des valeurs manquantes |
| Supprimer les lignes dupliquées | Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes |
| Remplir les valeurs manquantes | Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur |
| Rechercher et remplacer | Remplacer les cellules par un modèle de correspondance exacte |
| Regrouper par colonne et agréger | Regrouper les valeurs par colonne et agréger les résultats |
| Éliminer les espaces blancs | Supprimer l’espace blanc du début et de la fin du texte |
| Fractionner un texte | Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur |
| Convertir du texte en minuscules | Convertir du texte en minuscules |
| Convertir du texte en majuscules | Convertir du texte en majuscules |
| Mettre à l’échelle les valeurs min/max | Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale |
| Remplissage flash | Créer automatiquement une colonne basée sur des exemples dérivés d’une colonne existante |
Personnaliser votre affichage
À tout moment, vous pouvez personnaliser l’interface à l’aide de l’onglet « Vues » dans la barre d’outils située au-dessus de la grille d’affichage Data Wrangler. Cette option peut masquer ou afficher différents volets en fonction de vos préférences et de votre taille d’écran, comme illustré dans cette capture d’écran :
Enregistrement et exportation de code
La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options permettant d’enregistrer le code généré. Vous pouvez copier le code dans le Presse-papiers ou l’exporter vers le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé en tant que fichier CSV.
Conseil
Data Wrangler génère du code qui s’exécute uniquement lorsque vous exécutez manuellement la nouvelle cellule et qu’elle ne remplace pas votre DataFrame d’origine, comme illustré dans cette capture d’écran :
Vous pouvez ensuite exécuter ce code exporté, comme illustré dans cette capture d’écran :
Étapes suivantes
Maintenant que vous savez comment utiliser Data Wrangler avec pandas DataFrames, explorez ces ressources :
- Utiliser Data Wrangler avec des DataFrames Spark - Appliquer les mêmes techniques aux DataFrames Spark
- Regarder une démonstration en direct - Voir Data Wrangler en action avec Guy dans un cube
- Essayer Data Wrangler dans VS Code - Utiliser Data Wrangler dans Visual Studio Code
Vous voulez donner votre avis ? Partagez vos idées dans le forum Idées de structure.