除了“合适”与“合情”以外,还有哪些值得我们关注的要点呢?我们还是通过一个例子来进行说明。
例3-10 某企业研发了一款新产品,该产品在第三方打分系统中得分88分,老产品得分84分,该研发团队运用柱形图来对比新老产品(见图3-22,忽略单位),你觉得这个数据可视化合适吗?
图3-22 新老产品得分对比柱形图1
分析: 从“合适”与“合情”的角度来看,这个图形并没有什么问题。从图形上看,新产品的得分似乎比老产品的得分要高出很多,但实际上只是高出4分,还不到5%。那么,为什么我们的视觉感受会和实际情况产生这么大的差距呢?秘密也许就在图形的纵轴刻度里,这里的刻度是从80开始计数的,因此图形上的差异就显得十分巨大了。换言之,这个图形的问题就出在其图形的尺寸并没有符合规范,也就是并不合规。
那么,在数据可视化中,是否有规范尺寸可以参考呢?这里我们介绍一种由爱德华·塔夫特(Edward Tufte)在其1991年出版的《定量信息的视觉显示》( The Visual Display of Quantitative Information )一书中所提出的谎言因子(lie factor,LF),即
考虑到图形绘制中可能存在的合理误差,因此谎言因子的值应在0.95和1.05之间。如果该值小于或大于此范围,则表示存在失真。
回到我们的例题,从图形面积的角度看,如果将老产品得分的矩形面积记为1,那么新产品得分的矩形面积就是2(=8÷4);从真实数据的角度看,如果将老产品得分记为1,那么新产品得分就记为1.048(=88÷84)。此时,谎言因子的值为
我们可以看出这个谎言因子远远超出了合理范围,因此上面的图形是失真的。为了解决这个失真问题,我们只需要将纵轴的起始刻度调为0就可以了(见图3-23,忽略单位)。现在看看,似乎新产品并没有明显的优势。
图3-23 新老产品得分对比柱形图2