Appliquer des techniques de clustering
Le clustering vous permet d’identifier un segment (cluster) de données similaires entre elles, mais qui se différencient du reste des données. Le processus de clustering est différent de celui de regroupement que vous avez découvert dans l’unité précédente.
La fonctionnalité de clustering de Power BI vous permet de trouver rapidement des groupes de points de données similaires dans un sous-jeu de vos données. Elle analyse votre modèle sémantique pour identifier les similitudes et les dissemblances dans les valeurs d’attribut, puis sépare les données présentant des similitudes en un sous-jeu de données. Ces sous-jeux de données sont appelés clusters.
Par exemple, vous pouvez rechercher des modèles dans vos données commerciales, par exemple le comportement global des clients. Vous pouvez segmenter les clients en clusters en fonction de leurs similitudes, comme l’âge ou la localisation.
Commencez par ajouter la visualisation de nuage de points à votre état, puis ajoutez les champs obligatoires au visuel. Dans cet exemple, vous allez ajouter le champ Order Qty à l’axe des X, le champ Sales à l’axe des Y et le champ Unit Price aux valeurs.
L’image suivante illustre des données considérables dans le nuage de points ; il est donc difficile de distinguer les groupes naturels.
Pour appliquer un clustering à votre nuage de points, cliquez sur Plus d’options (…) dans le coin supérieur droit du visuel, puis sélectionnez Rechercher automatiquement les clusters.
Dans la fenêtre Clusters, vous pouvez modifier le nom, le champ et la description par défaut, si nécessaire. Toutefois, dans cet exemple, vous souhaitez changer le nombre de clusters. L’image suivante montre que la zone Nombre de clusters est vide par défaut. Autrement dit, Power BI recherche automatiquement le nombre de clusters qui a le plus de sens pour vos données.
Saisissez le nombre de clusters souhaité (3) dans la zone, puis cliquez sur OK. Power BI exécute l’algorithme de clustering et crée un champ catégorique comportant différents groupes de clusters. À présent, lorsque vous examinez le visuel, vous pouvez voir clairement les clusters qui se trouvent dans vos données et procéder à leur analyse.
Le nouveau champ de cluster est ajouté au puits Légende de votre nuage de points, que vous pouvez maintenant utiliser comme source de mise en surbrillance croisée comme tout autre champ Légende. Le nouveau champ de cluster est ajouté au modèle de données et vous pouvez le trouver dans le volet Données.
Si vous souhaitez modifier le cluster, cliquez avec le bouton droit sur le champ de cluster, puis sélectionnez Modifier les clusters.
Dans l’exemple précédent, lorsque vous appliquiez un clustering au nuage de points, vous pouviez utiliser seulement deux mesures. Si vous souhaitez rechercher des clusters à l’aide de plus de deux mesures, vous pouvez utiliser un visuel Table à la place. Dans ce cas, ajoutez tous les champs que vous souhaitez utiliser, puis exécutez l’algorithme de clustering à l’aide du même processus.