Partager via


Accélérer la préparation des données avec Data Wrangler dans Microsoft Fabric

Data Wrangler accélère votre workflow de préparation des données en fournissant une interface visuelle immersive pour l’analyse exploratoire des données. Dans cet article, vous allez apprendre à :

  • Lancer Data Wrangler à partir de votre notebook Fabric
  • Explorer les données avec des visualisations interactives et des statistiques récapitulatives
  • Appliquer des opérations courantes de nettoyage des données avec la génération de code automatique
  • Exporter des fonctions pandas ou PySpark réutilisables vers votre carnet de notes

Cet article se concentre sur les DataFrames pandas. Pour les DataFrames Spark, consultez cette ressource.

Prérequis

Limites

  • Actuellement, les opérations de code personnalisées prennent uniquement en charge les DataFrames pandas.
  • L’affichage Data Wrangler fonctionne le mieux sur les grands moniteurs. Toutefois, vous pouvez réduire ou masquer différentes parties de l’interface pour prendre en charge des écrans plus petits.

Lancement de Data Wrangler

Vous pouvez lancer « Data Wrangler » directement à partir d’un notebook Microsoft Fabric pour explorer et transformer tout DataFrame Pandas ou Spark.

Pour commencer à utiliser des exemples de données :

Cet extrait de code montre comment lire des exemples de données dans un DataFrame pandas :

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Dans l’onglet « Accueil » du ruban du bloc-notes, utilisez la liste déroulante Data Wrangler pour parcourir les DataFrames actifs disponibles pour modification. Sélectionnez celui que vous souhaitez ouvrir dans Data Wrangler.

Conseil

Vous ne pouvez pas ouvrir Data Wrangler pendant que le noyau du notebook est occupé. Une cellule en cours d’exécution doit se terminer avant que Data Wrangler puisse démarrer, comme illustré dans cette capture d’écran :

Capture d’écran d’un notebook Fabric avec le menu déroulant Data Wrangler.

Choix d’échantillons personnalisés

Pour ouvrir un exemple personnalisé de tout DataFrame actif avec Data Wrangler, sélectionnez Choisir un exemple personnalisé dans la liste déroulante, comme illustré dans cette capture d’écran :

Capture d’écran montrant l’invite déroulante Data Wrangler avec l’exemple d’option décrit.

Cette action ouvre une boîte de dialogue avec des options pour spécifier la taille de l’échantillon souhaité (nombre de lignes) et la méthode d’échantillonnage (premiers enregistrements, derniers enregistrements ou ensemble aléatoire). Les 5 000 premières lignes du DataFrame servent de taille d’exemple par défaut, comme illustré dans cette capture d’écran :

Capture d’écran montrant l’exemple d’invite personnalisée Data Wrangler.

Affichage des statistiques récapitulatives

Lorsque Data Wrangler se charge, il affiche une vue d’ensemble descriptive du DataFrame choisi dans le panneau Résumé . Cette vue d’ensemble inclut des informations sur les dimensions du DataFrame, les valeurs manquantes et bien plus encore. Lorsque vous sélectionnez une colonne dans la grille Data Wrangler, le panneau Résumé est mis à jour pour afficher des statistiques descriptives sur cette colonne spécifique. Des informations rapides sur chaque colonne sont également disponibles dans son en-tête.

Conseil

Les statistiques et visuels spécifiques aux colonnes (dans le volet Résumé et dans les en-têtes de colonne) dépendent du type de données de colonne. Par exemple, un histogramme groupé d’une colonne numérique apparaît dans l’en-tête de colonne uniquement si la colonne est paramétrée en format numérique, comme indiqué dans cette capture d’écran :

Capture d’écran de la grille d’affichage et du panneau Résumé de Data Wrangler.

Parcourir les opérations de nettoyage des données

Le panneau Opérations fournit une liste pouvant faire l’objet d’une recherche d’opérations de nettoyage des données. Lorsque vous sélectionnez une opération de nettoyage des données dans le volet Opérations , vous devez fournir une colonne ou des colonnes cibles, ainsi que tous les paramètres nécessaires pour terminer l’opération. Par exemple, l’invite permettant de mettre à l’échelle numériquement une colonne nécessite une nouvelle plage de valeurs, comme indiqué dans cette capture d’écran :

Capture d’écran du panneau Opérations de Data Wrangler.

Conseil

Vous pouvez appliquer une plus petite sélection d’opérations à partir du menu de chaque en-tête de colonne, comme indiqué dans cette capture d’écran :

Capture d’écran montrant une opération Data Wrangler qui peut être appliquée à partir du menu d’en-tête de colonne.

Aperçu et application d’opérations

La grille d’affichage de Data Wrangler prévisualise automatiquement les résultats d’une opération sélectionnée et le code correspondant apparaît automatiquement dans le panneau situé sous la grille. Pour valider le code préversion, sélectionnez Appliquer à l’un ou l’autre emplacement. Pour supprimer le code préversion et essayer une nouvelle opération, sélectionnez Ignorer comme illustré dans cette capture d’écran :

Capture d’écran d’une opération Data Wrangler en cours.

Une fois que vous avez appliqué une opération, la grille d’affichage de Data Wrangler et les statistiques récapitulatives sont mises à jour pour refléter les résultats. Le code apparaît dans la liste en cours d’exécution des opérations validées dans le panneau Étapes de nettoyage , comme illustré dans cette capture d’écran :

Capture d’écran d’une opération Data Wrangler appliquée.

Conseil

Vous pouvez toujours annuler l’étape la plus récente appliquée. Dans le panneau Étapes de nettoyage , une corbeille peut s’afficher lorsque vous pointez votre curseur sur l’étape la plus récente appliquée, comme illustré dans cette capture d’écran :

Capture d’écran d’une opération Data Wrangler qui peut être annulée.

Ce tableau récapitule les opérations actuellement prises en charge par Data Wrangler :

Opération Description
Tri Trier une colonne par ordre croissant ou décroissant
Filter Filtrer les lignes en fonction d’une ou plusieurs conditions
Codage à chaud Créer des colonnes pour chaque valeur unique dans une colonne existante, indiquant la présence ou l’absence de ces valeurs par ligne
Binarisation de texte multi-étiquette Fractionner des données à l’aide d’un séparateur et créer de nouvelles colonnes pour chaque catégorie, en marquant 1 si une ligne a cette catégorie et 0 si elle ne le fait pas
Modifier le type de colonne Modifier le type de données d’une colonne
Supprimer la colonne Supprimer une ou plusieurs colonnes
Sélectionner une colonne Choisir une ou plusieurs colonnes à conserver, puis supprimer le reste
Renommer la colonne Renommer une colonne
Supprimer les valeurs manquantes Supprimer les lignes avec des valeurs manquantes
Supprimer les lignes dupliquées Supprimer toutes les lignes qui ont des valeurs en double dans une ou plusieurs colonnes
Remplir les valeurs manquantes Remplacer les cellules avec des valeurs manquantes par une nouvelle valeur
Rechercher et remplacer Remplacer les cellules par un modèle de correspondance exacte
Regrouper par colonne et agréger Regrouper les valeurs par colonne et agréger les résultats
Éliminer les espaces blancs Supprimer l’espace blanc du début et de la fin du texte
Fractionner un texte Fractionner une colonne en plusieurs colonnes en fonction d’un délimiteur défini par l’utilisateur
Convertir du texte en minuscules Convertir du texte en minuscules
Convertir du texte en majuscules Convertir du texte en majuscules
Mettre à l’échelle les valeurs min/max Mettre à l’échelle une colonne numérique entre une valeur minimale et une valeur maximale
Remplissage flash Créer automatiquement une colonne basée sur des exemples dérivés d’une colonne existante

Personnaliser votre affichage

À tout moment, vous pouvez personnaliser l’interface à l’aide de l’onglet « Vues » dans la barre d’outils située au-dessus de la grille d’affichage Data Wrangler. Cette option peut masquer ou afficher différents volets en fonction de vos préférences et de votre taille d’écran, comme illustré dans cette capture d’écran :

Capture d’écran montrant le menu Data Wrangler pour personnaliser la vue d’affichage.

Enregistrement et exportation de code

La barre d’outils située au-dessus de la grille d’affichage Data Wrangler fournit des options permettant d’enregistrer le code généré. Vous pouvez copier le code dans le Presse-papiers ou l’exporter vers le notebook en tant que fonction. L’exportation du code ferme Data Wrangler et ajoute la nouvelle fonction à une cellule de code dans le notebook. Vous pouvez également télécharger le DataFrame nettoyé en tant que fichier CSV.

Conseil

Data Wrangler génère du code qui s’exécute uniquement lorsque vous exécutez manuellement la nouvelle cellule et qu’elle ne remplace pas votre DataFrame d’origine, comme illustré dans cette capture d’écran :

Capture d’écran des options d’exportation du code dans Data Wrangler.

Vous pouvez ensuite exécuter ce code exporté, comme illustré dans cette capture d’écran :

Capture d’écran du code généré par Data Wrangler dans le notebook.

Étapes suivantes

Maintenant que vous savez comment utiliser Data Wrangler avec pandas DataFrames, explorez ces ressources :

Vous voulez donner votre avis ? Partagez vos idées dans le forum Idées de structure.