Power BI 采样算法改进了散点图表示高密度数据的方式。
例如,可以从组织的销售活动创建散点图,每个商店每年都有数万个数据点。 此类信息的散点图将从该数据的有意义表示形式对数据进行采样,以说明一段时间内销售额的发生情况。 本文介绍了高密度数据采样的详细信息。
注释
本文中所述的 高密度采样 算法适用于 Power BI Desktop 和 Power BI服务的散点图。
高密度散点图的工作原理
以前, Power BI 以确定性方式在基础数据的完整范围内选择了一组示例数据点,以创建散点图。 具体而言,Power BI 会选择散点图系列中的第一行和最后一行数据,然后均匀划分其余行,以便绘制散点图上的 3,500 个数据点总数。 例如,如果样本有 35,000 行,则会选择第一行和最后一行进行绘制,则第十行也会绘制(每十行 35,000 / 10 = 每十行 = 3,500 个数据点)。 此外,以前,无法绘制的 null 值或点(如数据系列中的文本值)未显示,因此在生成视觉对象时不会考虑。 通过此类采样,散点图的感知密度也基于代表性数据点,因此隐含的视觉密度是采样点的情况,而不是基础数据的完整集合。
启用 高密度采样时,Power BI 实现一种算法,该算法消除了重叠点,并确保在与视觉对象交互时可以访问视觉对象上的点。 该算法还确保数据集中的所有点都表示在视觉对象中,从而为所选点的含义提供上下文,而不仅仅是绘制具有代表性的示例。
根据定义,对高密度数据进行采样,以创建响应交互性的可视化效果。 视觉对象上的数据点过多可能会减慢其速度,并影响趋势的可见性。 对数据采样的方式驱动采样算法的创建,以提供最佳的可视化体验,并确保表示所有数据。 在 Power BI 中,算法经过改进,可提供响应能力、表示形式和整体数据集中重要点的明确保存的最佳组合。
注释
使用 高密度采样 算法的散点图最好绘制在方形视觉对象上,就像所有散点图一样。
散点图采样算法的工作原理
散点图的高密度采样算法采用的方法可以更有效地捕获和表示底层数据,并消除点重叠现象。 该算法从每个数据点的小半径开始,这就是可视化中给定点的显示圆的大小。 然后,它会增加所有数据点的半径。 当两个或更多个数据点重叠时,增加半径大小的单个圆表示这些重叠的数据点。 该算法持续增加数据点的半径,直到达到合理数量的数据点(3,500 个)并显示在散点图中。
此算法中的方法可确保在生成的视觉对象中表示离群值。 该算法在确定重叠时也遵循比例,以便指数刻度以保真度呈现到基础可视化点。
该算法还保留散点图的整体形状。
注释
对散点图使用 高密度采样 算法时, 数据的准确分布 是目标, 而不是 隐含的视觉密度。 例如,你可能会看到一个散点图,其中许多圆在某个区域中重叠(密度),并假设必须在那里聚集许多数据点。 由于 高密度采样 算法可以使用一个圆来表示多个数据点,因此不会显示隐含视觉密度或“聚类分析”。 若要在给定区域中获取更多详细信息,可以使用切片器放大。
此外,无法绘制的数据点(如 null 或文本值)将被忽略,因此可以选择可绘制的另一个值。 这进一步可确保维护散点图的真实形状。
使用散点图的标准算法时
在某些情况下, 高密度采样 不能应用于散点图,并且使用了原始算法。 这些情况包括:
如果右键单击 “值 ”下的某个值,并将其设置为 “显示菜单中没有数据的项目 ”,散点图将还原为原始算法。
“播放轴”字段中的任何值都会导致散点图还原为原始算法。
如果散点图上缺少 X 轴和 Y 轴,图表将还原为原始算法。
在“分析”窗格中使用比率线会导致图表还原为原始算法。
如何为散点图启用高密度采样
若要将 高密度采样 切换到 “开”,请选择散点图,转到 “格式视觉 对象”窗格,展开 “常规 ”卡,在该卡片底部附近,将 “高密度采样 ”切换滑块滑动到 “开”。
注释
打开开关后,Power BI 将尽可能尝试使用 高密度采样 算法。 当无法使用算法时(例如在 Play 轴中放置值时),即使图表已还原为标准算法,开关也会保持 打开 状态。 如果随后从 “播放 ”轴中删除值,或者条件更改以启用高密度采样算法,图表将自动使用该图表的高密度采样,因为该功能处于活动状态。
注释
数据点由索引分组或选择。 具有图例不会影响算法的采样。 它只影响视觉对象的排序。
注意事项和限制
高密度采样算法是对 Power BI 的重要改进。 但是, 高密度采样 算法仅适用于与基于 Power BI 服务的模型、导入的模型或 DirectQuery 的实时连接。