1. 知识准备
先普及两个基础概念:维度和度量
维度:Dimension,用来描述事物的某一个属性,多为文本值。通常出现在表格的"行"上
度量:Metric, 可理解为计值方式,分为基本度量和复合度量,基本度量使用基本的聚合函数计值(例如count、sum),复合度量由多个基本度量进行公式运算组合而成(例如Ratio)。简单来说,度量似乎就是那些只能出现在"列",而永远不会出现在"行"上的东西。
另外,度量还可以分为累加性度量、半累加度量、非累加度量:
累加性度量也称为完全累加度量值,可针对包含度量值的所有维度进行聚合。例如,网站浏览量、广告花费,可以在任何维度聚合,并且都有意义。
半累加度量只针对包含度量值的某些(但不是全部)维度进行聚合。例如库存数量可以跨地域聚合,但不能跨时间聚合。
非累加度量不能针对包含度量值的任何维度进行聚合,相反,必须对表示度量值的多维数据集中的每个单元分别计算度量值。例如,返回百分比的度量(利润率)不能在维度内跨子成员进行聚合,类似的,对平均值再求平均也没有意义。
2. Excel图表规范
进入正题,图表的选择需要考虑原始数据的构成和想要传递的信息,两者缺一不可,但我们经常忽视信息传递的重要性,只根据数据来选择图表:
“我这个数据适合用什么图表?” ×
“你想反映什么信息?” √
关于如何选择合适的图表,国外专家已经进行过类似的总结,并制作成了完整的指南:
上图由国内Excel可视化专家刘万祥老师整理后,更加通俗易懂:
从中心出发,图表传递的信息可以分为四种:比较、构成、联系和分布。
联系和分布通常固定一个特定维度,展示度量的数量是可变的,展示分布情况的直方图和正态分布图包含一个度量,散点图包含两个度量,气泡图和曲面图包含三个度量。
比较和构成是最常用的两种展示方式,又可以向下分为基于时间维度的图表和基于其他维度的图表。
对两者的介绍,ZebraBI整理了一份详实的报告,以下图片来自ZebraBI官网:
ZebraBI制作的Excel图表严格遵守IBCS规范,其制图原则可以作为非常有价值的参考,中心思想是:
基于时间维度的数据使用水平图表(柱形图、折线图)
基于其他维度的数据使用垂直图表(条形图)
尽量避免使用循环图(雷达图),仅在维度成员只有2-3个时考虑
当需要展示2到3个度量的时候,使用散点图或气泡图等2D图表
图片取自IBCS规范
另外补充一点,关于饼图的使用,IBCS也是很谨慎的,仅在表现部分占整体比重的时候使用,一旦饼图被切分成多块,每块的大小由扇形的角度决定,而人眼对角度的变化并不敏感,无法直观比较占比大小。
图片取自IBCS规范
3.使用PowerBI自定义图表,丰富数据展现形式
① 数据流图表
图表可以传递的信息除了上文提到的比较、构成、分布和联系之外,还有一种数据流信息,在PowerBI中展示数据流动最常用的就是和弦图(Chord Chart)和桑基图(Sankey Diagram)
和弦图可以用来展现数据在维度内部的流动,如果维度下的项目较多,图表就会变得很复杂,不利于阅读,一般不推荐。
桑基图可以用来展现跨维度的数据流动,线条的宽度细代表了数据流量的大小,用PBI自定义图表库中的桑基图可以表现两个维度间数据流动,结合联动筛选可以对选中的分支进一步剖析,异常方便。
但只表现两个维度并不能满足需要,很多场景下我们需要能展示三个甚至更多维度的进阶图表,比如想要表现 始发地→交通工具→目的地 这个流程。在PowerBI中实现并不难,使用DAX函数对原始数据重构后即可完成:
② 多变量图表
想要同时表现多组变量间的关系时,图形选择指南中的图表最多只能容纳三个变量(三维曲面图或气泡图),如果变量数继续增加,将出现空间耗尽的情况,此时需要将高维数据映射到低维空间(三维以下),同时图表又必须具备一定辨识度,方便可视化。
③ 叙事型图表
PBI Visuals Gallery前不久更新了一个Pulse Chart,可以沿着Timeline播放数据,突出显示重要的时间点并加以备注,非常适合展示一个完整的活动周期内,不同阶段采取的行动和收到的效果。
④ 分析型图表
与大多数图表被用来展示数据的目的不同,在Visuals Gallery中静静地躺着一个异类,它的存在不是为了展示最终的结果,而是要向你展示整个分析的过程,它的功能异常强大,灵活丰富的分析手段让Tableau都甘拜下风。我一度以为,如果微软把这个产品单独开发出售,对其他敏捷BI软件将是极大的威胁。
以上自定义图表在PBI中实现的效果高飞老师将在7月16日中国电子表格应用大会杭州站的分享活动中展示,敬请期待。
本文来源:不详 作者:佚名