Profiler des données dans Power BI

Effectué

Le profilage des données consiste à étudier les nuances des données : déterminer les anomalies, examiner et développer les structures de données sous-jacentes et interroger les statistiques des données, comme le nombre de lignes, les distributions des valeurs, les valeurs minimales et maximales, les moyennes, etc. Ce concept est important, car il vous permet de mettre en forme et d’organiser les données, de façon à simplifier les interactions avec les données et l’identification de la distribution des données, ce qui contribue à faciliter l’utilisation des données sur le front-end pour développer les éléments des états presque sans effort.

Supposons que vous élaborez des états pour l’équipe commerciale de votre organisation. Vous n’êtes pas certain de la façon dont les données sont structurées et contenues dans les tables : vous souhaitez donc profiler les données en arrière-plan avant de commencer à développer les visuels. Power BI possède des fonctionnalités inhérentes qui rendent ces tâches conviviales et simples.

Examiner les structures des données

Avant de commencer à examiner les données dans l’Éditeur Power Query, vous devez vous familiariser avec les structures de données sous-jacentes dans lesquelles les données sont organisées. Vous pouvez afficher le modèle sémantique actuel dans l’onglet Modèle de Power BI Desktop.

Dans l’onglet Modèle, vous pouvez modifier des propriétés de colonne et de table spécifiques en sélectionnant une table ou des colonnes et transformer les données à l’aide du bouton Transformer les données, qui vous redirige vers l’Éditeur Power Query. De plus, vous pouvez gérer, créer, modifier et supprimer des relations entre différentes tables à l’aide du bouton Gérer les relations, qui se trouve sur le ruban.

Rechercher les anomalies des données et les statistiques des données

Après avoir créé une connexion à une source de données et cliqué sur Transformer les données, vous êtes redirigé vers l’Éditeur Power Query, où vous pouvez déterminer si des anomalies existent dans vos données. Les anomalies des données sont des valeurs hors norme dans vos données. La détermination de ces anomalies vous permet d’identifier ce à quoi ressemble la distribution normale de vos données et de déterminer si vous devez examiner de plus près des points de données spécifiques. L’Éditeur Power Query détermine les anomalies des données à l’aide de la fonctionnalité Distribution des colonnes.

Cliquez sur Afficher dans le ruban, puis vous avez le choix entre plusieurs options sous Aperçu des données. Pour comprendre les anomalies et les statistiques des données, sélectionnez les options Distribution des colonnes, Qualité de la colonne et Profil de colonne. L’illustration suivante montre les statistiques qui s’affiche.

Les paramètres Qualité de la colonne et Distribution des colonnes sont illustrés dans les graphiques au-dessus des colonnes de données. Le paramètre Qualité de la colonne affiche les pourcentages de données valides, erronées et vides. Dans une situation idéale, vous souhaitez que 100 % des données soient valides.

Remarque

Par défaut, Power Query examine les 1 000 premières lignes de votre jeu de données. Pour modifier ce paramètre, sélectionnez le statut du profilage dans la barre de statut, puis Profilage de colonne basé sur l’ensemble du jeu de données. ]

Le paramètre Distribution des colonnes affiche la distribution des données dans la colonne et le nombre de valeurs distinctes et uniques, qui peuvent vous donner des informations détaillées sur les décomptes de données. Les valeurs distinctes regroupent toutes les valeurs différentes d’une colonne, y compris les doublons et les valeurs nulles, tandis que les valeurs uniques n’incluent pas les doublons ni les valeurs nulles. Par conséquent, le paramètre distinct (valeurs distinctes) de cette table vous indique le nombre total de valeurs présentes, tandis que le paramètre unique (valeurs uniques) vous indique le nombre de ces valeurs qui ne s’affichent qu’une fois.

Le paramètre Profil de colonne vous permet d’étudier plus en détail les statistiques dans les colonnes pour les 1 000 premières lignes de données. Cette colonne fournit plusieurs valeurs différentes, notamment le nombre de lignes, qui est important pour vérifier que vos données ont été importées correctement. Par exemple, si votre base de données d’origine comporte 100 lignes, ce nombre de lignes vous permet de vérifier que 100 lignes ont bien été importées correctement. De plus, ce nombre de lignes affiche le nombre de lignes que Power BI a considérées comme des valeurs hors norme, des lignes et chaînes vides, ainsi que les valeurs minimale et maximale, qui vous indiquent respectivement la plus petite valeur et la plus grande d’une colonne. Cette distinction est particulièrement importante dans le cas des données numériques, car elle vous avertira immédiatement si vous avez une valeur maximale supérieure à ce que votre entreprise identifie comme un « maximum ». Cette valeur attire votre attention sur ces valeurs. Autrement dit, vous pouvez ensuite concentrer vos efforts lorsque vous étudiez plus en détail les données. Si les données se trouvent dans la colonne de texte, comme illustré dans l’image précédente, la valeur minimale est la première valeur et la valeur maximale est la dernière valeur dans l’ordre alphabétique.

De plus, le graphique Distribution des valeurs vous indique le nombre de chacune des valeurs distinctes de cette colonne spécifique. En examinant le graphique de l’image précédente, notez que la distribution des valeurs indique qu’« Anthony Gross » s’affiche le plus souvent dans la colonne SalesPerson et que « Lily Code » s’y affiche le moins souvent. Ces informations sont particulièrement importantes, car elles identifient les valeurs hors norme. Si une valeur s’affiche bien plus souvent que d’autres dans une colonne, la fonctionnalité Distribution des valeurs vous permet de déterminer où commencer à chercher pourquoi il en est ainsi.

Sur une colonne numérique, la paramètre Statistiques de colonnes va également inclure le nombre de valeurs zéro et Null ainsi que la valeur moyenne de la colonne, l’écart type des valeurs de la colonne, et le nombre de valeurs paires et impaires de la colonne. Ces statistiques vous donnent une idée de la distribution des données dans la colonne : elles sont importantes, car elles récapitulent les données de la colonne et servent de point de départ pour déterminer ce que sont les valeurs hors norme.

Par exemple, en parcourant les données de facturation, vous remarquez que le graphique Distribution des valeurs montre que quelques vendeurs de la colonne SalesPerson s’affichent autant de fois dans les données. En outre, vous remarquez que la même situation s’est produite dans la colonne Profit ainsi que dans quelques autres tables. Au cours de votre investigation, vous découvrez que les données que vous utilisiez étaient incorrectes et qu’elles devaient être actualisées : vous effectuez donc immédiatement l’actualisation. Si vous n’aviez pas consulté ce graphique, vous n’auriez peut-être pas vu cette erreur aussi rapidement : voilà pourquoi la distribution des valeurs est essentielle.

Une fois que vous avez terminé vos modifications dans l’Éditeur Power Query et que vous êtes prêt à commencer à créer des visuels, revenez à l’Accueil sur le ruban de l’Éditeur Power Query. Cliquez sur Fermer et appliquer. Vous êtes alors redirigé vers Power BI Desktop et toutes les modifications/transformations de colonne sont également appliquées.

Vous avez maintenant déterminé les éléments qui composent le profilage de données dans Power BI, notamment le chargement de données dans Power BI et l’interrogation des propriétés de colonne, pour clarifier et modifier davantage le type et le format des données dans les colonnes, rechercher des anomalies de données et afficher les statistiques des données dans l’Éditeur Power Query. Grâce à ces connaissances, vous pouvez inclure dans votre boîte à outils la possibilité d’étudier vos données de manière efficace.