Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
L’algorithme d’échantillonnage dans Power BI améliore les visuels qui échantillonnent des données à haute densité. Par exemple, vous pouvez créer un graphique en courbes à partir des résultats des ventes de vos magasins de détail, chaque magasin ayant plus de 10 000 reçus de ventes chaque année. Un graphique en courbes de ces informations de vente échantillonnerait les données de chaque magasin et créerait un graphique en courbes multi-séries qui représente ensuite les données sous-jacentes. Veillez à sélectionner une représentation significative de ces données pour illustrer la façon dont les ventes varient au fil du temps. Cette pratique est courante dans la visualisation des données à haute densité. Les détails de l’échantillonnage des données à haute densité sont décrits dans cet article.
Note
L’algorithme d’échantillonnage haute densité décrit dans cet article est disponible dans Power BI Desktop et dans le service Power BI.
Fonctionnement de l’échantillonnage de lignes à haute densité
Auparavant, Power BI a sélectionné une collection d’exemples de points de données dans la plage complète de données sous-jacentes de manière déterministe. Par exemple, avec des données à haute densité sur un visuel couvrant une année civile, il peut y avoir 350 points de données d’exemple affichés dans le visuel, chacun d’entre eux ayant été sélectionnés pour s’assurer que la plage complète de données a été représentée dans le visuel. Pour comprendre comment cela se produit, imaginez tracer un cours boursier sur une période d’un an et sélectionner 365 points de données pour créer un visuel de graphique en courbes. Il s'agit d'un point de donnée par jour.
Dans cette situation, il existe de nombreuses valeurs pour le prix de l'action chaque jour. Bien sûr, il y a un niveau quotidien élevé et faible, mais ceux-ci peuvent se produire à tout moment pendant la journée où le marché boursier est ouvert. Pour l’échantillonnage de ligne à haute densité, si l’échantillon de données sous-jacent a été pris à 10 h 30 et 12 h 00 chaque jour, vous obtenez un instantané représentatif des données sous-jacentes, comme le prix à 10 h 30 et 12 h 00. Toutefois, l’instantané peut ne pas capturer le prix réel élevé et bas du cours de l’action pour ce point de données représentatif ce jour-là. Dans cette situation et d’autres, l’échantillonnage est représentatif des données sous-jacentes, mais il ne capture pas toujours des points importants, ce qui, dans ce cas, serait des cours de bourse quotidiens élevés et bas.
Par définition, les données à haute densité sont échantillonnée pour créer des visualisations relativement rapidement réactives à l’interactivité. Un trop grand nombre de points de données sur un visuel peuvent ralentir et réduire la visibilité des tendances. La façon dont les données sont échantillonnés est ce qui permet de créer l’algorithme d’échantillonnage pour offrir la meilleure expérience de visualisation. Dans Power BI Desktop, l’algorithme fournit la meilleure combinaison de réactivité, de représentation et de conservation claire des points importants dans chaque tranche de temps.
Fonctionnement de l’algorithme d’échantillonnage de ligne
L’algorithme d’échantillonnage de lignes à haute densité est disponible pour les visuels de graphique en courbes et de graphique en aires avec un axe x continu.
Pour un visuel à haute densité, Power BI segmente intelligemment vos données en blocs haute résolution, puis sélectionne des points importants pour représenter chaque bloc. Ce processus de découpage des données à haute résolution est réglé pour garantir que le graphique obtenu est visuellement indistinguishable du rendu de tous les points de données sous-jacents, mais est plus rapide et plus interactif.
Valeurs minimales et maximales pour les visuels de ligne à haute densité
Pour toute visualisation, les limitations suivantes s’appliquent :
3 500 correspond au nombre maximal de points de données affichés sur la plupart des visuels, quel que soit le nombre de points de données ou de séries sous-jacents, consultez les exceptions dans la liste suivante. Par exemple, si vous avez 10 séries avec 350 points de données chacun, le visuel a atteint sa limite maximale de points de données globaux. Si vous avez une série, elle peut avoir jusqu’à 3 500 points de données si l’algorithme estime que le meilleur échantillonnage pour les données sous-jacentes.
Il existe un maximum de 60 séries pour n’importe quel visuel. Si vous avez plus de 60 séries, divisez les données et créez plusieurs visuels avec 60 séries ou moins chacune. Il est recommandé d’utiliser un segment pour afficher uniquement les segments des données, mais uniquement pour certaines séries. Par exemple, si vous affichez toutes les sous-catégories de la légende, vous pouvez utiliser un segment pour filtrer par catégorie globale sur la même page de rapport.
Le nombre maximal de limites de données est supérieur pour les types visuels suivants, qui sont des exceptions à la limite de 3 500 points de données :
- 150 000 points de données maximum pour les visuels R.
- 30 000 points de données pour les visuels Azure Map.
- 10 000 points de données pour certaines configurations de graphiques à dispersion (les graphiques à dispersion ont 3500 points par défaut).
- 3 500 pour tous les autres visuels à l’aide d’un échantillonnage à haute densité. Certains autres visuels peuvent visualiser davantage de données, mais ils n’utilisent pas l’échantillonnage.
Ces paramètres garantissent que les visuels dans Power BI Desktop s’affichent rapidement, sont réactifs à l’interaction avec les utilisateurs et n’entraînent pas de surcharge de calcul excessive sur l’ordinateur qui affiche le visuel.
Évaluer des points de données représentatifs pour les visuels de ligne à haute densité
Lorsque le nombre de points de données sous-jacents dépasse le nombre maximal de points de données qui peuvent être représentés dans le visuel, un processus appelé binning commence. Le binning segmente les données sous-jacentes en groupes appelés compartiments, puis affine ces compartiments de manière itérative.
L’algorithme crée autant de bacs que possible pour créer la plus grande granularité pour le visuel. Dans chaque bac, l’algorithme recherche la valeur minimale et maximale des données pour s’assurer que les valeurs importantes et significatives, telles que les valeurs hors norme, sont capturées et affichées dans le visuel. En fonction des résultats du binning et de l’évaluation ultérieure des données par Power BI, la résolution minimale de l’axe x pour le visuel est déterminée pour garantir une granularité maximale pour le visuel.
Comme mentionné précédemment, la granularité minimale pour chaque série est de 350 points et la valeur maximale est de 3 500 pour la plupart des visuels. Les exceptions sont répertoriées dans les paragraphes précédents.
Chaque compartiment est représenté par deux points de données, qui deviennent les points de données représentatifs du bac dans le visuel. Les points de données sont la valeur élevée et faible pour ce bac. En sélectionnant les valeurs les plus élevées ou les plus faibles, le tri par intervalles garantit que toutes les valeurs élevées importantes ou faibles importantes sont capturées et représentées visuellement.
Si cela ressemble à beaucoup d'analyses pour vous assurer que la valeur hors norme occasionnelle est capturée et correctement affichée dans le visuel, vous avez raison. C’est la raison exacte du processus d’algorithme et de binning.
Info-bulles et échantillonnage de lignes à haute densité
Il est important de noter que ce processus de binning, qui entraîne la capture et l’affichage d’une valeur minimale et maximale dans un bac donné, peut affecter la façon dont les info-bulles affichent les données lorsque vous pointez sur les points de données. Pour expliquer comment et pourquoi cela se produit, examinons notre exemple sur les cours des actions.
Supposons que vous créez un visuel basé sur le cours des actions et que vous comparez deux actions différentes, qui utilisent l’échantillonnage à haute densité. Les données sous-jacentes de chaque série ont de nombreux points de données. Par exemple, peut-être que vous capturez le prix des actions chaque seconde de la journée. L’algorithme d’échantillonnage de ligne à haute densité effectue un binning pour chaque série indépendamment de l’autre.
Maintenant, supposons que la première action augmente en prix à 12:02, puis revient rapidement 10 secondes plus tard. C’est un point de données important. Lorsque le binning se produit pour cette action, la valeur élevée à 12:02 est un point de données représentatif pour cet intervalle.
Cependant, pour la deuxième action, 12:02 n'était ni un sommet ni un creux dans l'intervalle qui incluait cette heure. Peut-être que la valeur élevée et la valeur basse pour l'intervalle qui inclut 12:02 se sont produites trois minutes plus tard. Dans ce cas, lorsque le graphique en courbes est créé et que vous pointez sur 12:02, vous voyez une valeur dans l’info-bulle pour le premier stock. Cela est dû au fait qu’il a sauté à 12:02 et que cette valeur a été sélectionnée comme point de données maximum de cet intervalle. Toutefois, vous ne verrez aucune valeur dans l’info-bulle à 12:02 pour le deuxième stock. C’est parce que la deuxième action n’avait pas de valeur haute ou basse pour la tranche correspondant à 12:02. Par conséquent, il n’existe aucune donnée à afficher pour le deuxième stock à 12:02, et par conséquent, aucune donnée d’info-bulle n’est affichée.
Cette situation se produit fréquemment avec des info-bulles. Les valeurs élevées et basses d’une corbeille spécifique ne correspondent probablement pas parfaitement aux points de valeur de l’axe x uniformément mis à l’échelle, et l’info-bulle n’affiche pas la valeur.
Comment activer l’échantillonnage de lignes à haute densité
Par défaut, l’algorithme est Activé. Pour modifier ce paramètre, accédez au volet Mise en forme , dans la carte Général et en bas, vous voyez le curseur d’échantillonnage haute densité . Sélectionnez le curseur pour activer oudésactiver.
Considérations et limitations
L’algorithme pour l’échantillonnage de lignes à haute densité est une amélioration importante de Power BI, mais il existe quelques considérations à prendre en compte lors de l’utilisation de valeurs et de données à haute densité.
En raison d’une granularité accrue et du processus de binning, les info-bulles peuvent uniquement afficher une valeur si les données représentatives sont alignées avec votre curseur. Pour plus d’informations, consultez la section Info-bulles et échantillonnage de ligne haute densité dans cet article.
Lorsque la taille d’une source de données globale est trop grande, l’algorithme élimine la série (éléments de légende) pour prendre en charge la contrainte maximale d’importation de données.
- Dans cette situation, l'algorithme classe les séries de légendes par ordre alphabétique, en suivant la liste des éléments de légende jusqu'à atteindre le maximum d'importation de données, et n'importe alors plus de séries.
Lorsqu’un jeu de données sous-jacent a plus de 60 séries, le nombre maximal de séries, l’algorithme trie la série par ordre alphabétique et élimine les séries au-delà du 60ème ordre alphabétique.
Si les valeurs des données ne sont pas de type numérique ou date/heure, Power BI n’utilise pas l’algorithme et revient à l’algorithme d’échantillonnage précédent, non à haute densité.
Le paramètre Afficher les éléments sans données n'est pas pris en charge avec l'algorithme.
L’algorithme n’est pas pris en charge lors de l’utilisation d’une connexion dynamique à un modèle hébergé dans SQL Server Analysis Services version 2016 ou antérieure. Il est pris en charge dans les modèles hébergés dans Power BI ou Azure Analysis Services.