前面我们已经介绍了“合适”“合情”“合规”这三个数据可视化要点,那么是否意味着只要符合这三个要点,可视化就能够清晰有效地传递数据信息了呢?我们来看下面的例子。
例3-11 某地区开展了关于居民“收入”( x )与“支出”( y )情况的调查,随机抽查了60位居民,他们的收入、支出情况如图3-24所示。
图3-24 某地区居民收入、支出散点图
1.请结合图3-24a分析这个地区居民的收入和支出在数量上的关系。
2.由于这些居民来自6个不同的社区,我们用不同的散点形状区分不同的社区,如图3-24b所示,请进一步分析这个地区居民的收入和支出在数量上的关系。
分析: 这是一个很有趣的问题,如果首先看图3-24a,大部分读者会毫不犹豫地得出“收入与支出正相关”的结论,即收入越高,支出大概率也越高,反之亦然。但是当加入不同社区分析图3-24b时,我们发现需要推翻之前的观点,并且得出“收入与支出负相关”的结论。
那么同一组数据,为什么会得出截然相反的结论呢?这个例题里的本质问题涉及“辛普森悖论”(E.H.Simpson,1951),它指的是对于某个条件下的多组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能产生相反的结论。
因此,在数据可视化的时候要尽可能呈现包括分组信息在内的完整信息,这样才能清晰有效地传递数据信息,帮助读者做出合理的判断。
事实上,在数据可视化中需要注意的要点并不止上述4点,还包括:①可视化中变量的维度不宜太高;②可视化中的重点信息需要重点标注;③可视化中的非重要信息避免使用动图,防止分散读者注意力;等等。这些要点还需要读者在实践中不断总结归纳。