购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

描述数据

找到感觉

在确定自己的数据不是垃圾之后,你对数据的态度就从质疑转变为信任了。你开始要让数据来引导你的工作了。你要问的第一个问题是“我能用这个数据回答什么问题?”答案要通过数据探索才能找到。你在进行充分的数据探索之后,就会对数据的优劣有直观的感受了。有时候你会发现这个数据虽然不是编造的,但是并不好。原因并不是它和你的想法有相悖之处,而是你从中什么新东西也找不出来。 优秀 的数据往往是这样的:它和你的想法直接相悖,因此你从中能够找出新东西来。你寻找新东西的入手点,往往就是列表格。两向表、四向表、六向表……,只要你的头脑还受得了,就尽可能详尽地列下去。

在这样做的过程中你就会找到感觉,知道要沿什么方向去探索。“这个表中,92个人中有17个选这项……那个表中,108个人中有29个选这项……那就是19%比27%……这个差异不值得琢磨……还有个表,108个人中有37个选这项……17/92与37/108……,这个事情就值得琢磨一下了……”。你会有最初的一些推论(“也许这两个东西之间的差异是关键之处”),但是这些推论没有被证实,你就会意识到这条路可能行不通。数据又会帮助你产生新的假设,然后你再沿着这条路去探索。

下面这个例子是我写作本书时正在进行的一项研究。我想 同时 测量人们对于“占领华尔街运动”的支持度和对于“茶党运动”的支持度,借此来了解人们的政治意识形态立场与政党制度的关系。让我来告诉你,我把那些表格铺到了地板上之后发现了什么。首先,支持其中一项运动的人往往不会支持另一项运动。这在意料之中,不值得进一步琢磨。其次,民主党人或者自由派往往会支持“占领华尔街运动”而不支持“茶党运动”,而共和党人或保守派往往会支持“茶党运动”而不支持“占领华尔街运动”。你可能觉得这不过是常识而已,用数据发现这些内容实在是太愚蠢了。但是,我接着先根据是保守派还是自由派、有没有接受过大学教育将人群分为四类,然后对每一类人群列出是否“占领华尔街运动”和是否支持“茶党运动”的交叉列联表(这是一个 的表)。从这些表中能看出什么呢?

在每一种意识形态类别 内部 ,对“占领华尔街运动”的支持和对“茶党运动”的支持都是正相关的!这表明了一种很有趣的理论:是否支持“占领华尔街运动”和是否支持“茶党运动”测量的其实都是某个人对社会现状是否有一种“恼火生气”的感觉,而他的意识形态立场则使他对于哪一种运动更容易得到响应进行了 排序 。通过引入其他数据,我们可以进一步检验这种理论。当然,如果你得到了理论假设就止步于此,那你就可能会出现“过分拟合”的问题。你应该继续去检验你的解读是否正确,但这里的检验指的不是要你去进行某种 统计 检验,而是要你去检验这种理论的各种 实质 推论是否成立。不必担心,以后会有很多机会来驳斥你的假设。现在我们主要关注的还是如何产生这些假设。

化繁为简

上述做法之所以有效,是因为认知科学(而非统计学)说明,我们大多数人很容易识别出某种模式来。我们能通过 听觉 触觉 感受到某种模式,但最擅长的还是通过 视觉 感受到某种模式。最容易说服他人的方式是让他看到这种模式(Latour,1986)。在社会科学研究中使用这种能力的难点在于,我们的环境通常都太过复杂,以至于我们不能识别出模式来。因此在很多情况下,解决办法在于把数据简化成为某种形式,使得你可以识别出其中的模式。

因此,人们通常所谈论的“数据可视化”(visualizations)就非常重要。我前面讲过的列联表其实也可以看成一种数据可视化。列联表的优点在于它具有通用性,可以快速生成,易于理解(在你知道如何读表以后)。只需要一个单元格频数、一个列百分比、一个行百分比,你就可以开始工作了。

有很多可视化方法能够让人受益匪浅。但是,最简单的那种“预制图”(参数已经预先设定好)有可能会误导你。你必须花些时间来对它们进行调整,以便适用于你的数据。有些图被大家公认为是不适于展示任何数据(如“饼图”),另一些图则只适用于某些问题和某些数据而不适用于其他数据(如“条形图”)。有些图对于低维数据结构(如对应分析)来说是 极好 的,但是不适于展示高维数据。你可以用“旋转”或者不断地“切片”的方式来把握三维数据,但是我自己从来没有能够在头脑中想象出四维数据是什么样子。或许我们能够生成某种数据的三维全息图,它在我们沿第四个维度前后移动时可以不断变化,这样便可以展示出四维数据来。或者我们不仅可以上下移动,还能够左右移动,这样便能够展示出五维数据来。但是这一切都是假想,留给未来考虑吧。

数据可视化的关键在于,它能够让你尽快对数据有直观感受。举例来说,人口学家对于所谓的“年龄-时代-世代”问题很熟悉。事情发生了变化(如离婚率),我们想知道变化的原因是人们的年龄(无论是谁,到了这个年龄之后就会发生变化),还是由于时代(无论是谁,处在现在的时代都会这样变化),或者世代(80后那代人就是和其他人不一样)。麻烦在于,上述三个变量当中,某一个变量都是另外两个变量的函数(年龄=当前时代-出生世代)。因此我们无法把这三个变量同时引入分析。在数学上来讲,这是一个无解的问题。

但那只是在数学上无解。在社会学上,它是有解的。表2.1显示了这种数据的结构。纵向的维度代表年龄,横向的维度代表时代(即进行观察时的时间)。单元格里写的是世代(人们出生的年代)。我们使用10年为一个阶段,把这10年间的人都合并在一起。注意在表中,一个世代会向右上角不断上移(表中的箭头表示的是1910世代的上移轨迹)。表2.2中是我自己编出来用来演示的数据(假定它们是已婚女性在婚后一年内就有小孩的比例)。

表2.1 年龄、时代与世代表的结构

表2.2 年龄、时代与世代数据矩阵

可以马上做个小测验:你能从中看出什么?你可能会看出一些东西来,但也可能会看错。你可能会看出1940年代和1950年代与其他年代有所不同,这一点是对的。你还可能会看出60岁和70岁也和其他组有所不同,这就有些不确定了。我们可以把它制作成图,使得图中的灰度与单元格中的数目成比例(图2.1)。这是用R软件做的一个简单的黑白图(R2.1)。但是它表示了这种模式只是一种时代效应。你在表的行中似乎也看到了某种模式,但是那只是由于我们的肉眼对于1位数和2位数之间的差异比较敏感,其实在这个表中,主体部分中的数字是完全随机的(在从5到13的数字中随机抽选的)。

这个例子中存在的模式是非常明显的。表中的所有数字都是从5到13的数字中随机抽选的,除了中间两行是从5到85的数字中随机抽样的。除非你什么也看不见,否则就能看出这一模式来。现在来看另一个比较微妙的例子:请问表2.3中的数据中存在什么样的模式?这一次你就很难直接看出来了。我们还是试着把它制作成图吧(图2.2,R2.2)。

图2.1 年代效应

表2.3 又一个假想的年龄、时代与世代数据

图2.2 世代效应

看图就清楚多了。如果看不清,可以眯起眼睛来(我自认为这是一种很重要的方法技巧)。看起来有两个世代与众不同,分别是1870世代和1930世代。从数学上,你是没法证明这就是世代效应,而不是年代与年龄的某种复杂的非线性交互作用的。但是不用管这些,直接去了解这两个世代在早年间经历了什么,有什么共同之处吧。

简单的数据可视化不仅可以发现某个主题,而且有时还可以证明它。最近有一个很好的例子,维埃斯和谢弗斯对于美国的世俗化进行了研究(Voas and Chaves,2016;Hout and Fischer,2014)。很多宗教社会学家对于美国宗教的兴盛印象深刻,将此作为重要证据来说明即便在发达国家当中,也并不存在世俗化的趋势。维埃斯和谢弗斯(Voas and Chaves,2016:1531)用折线图展示了不同世代对宗教的忠诚度随时间的变化轨迹。这些折线 没有任何 交叉。在任何年龄,美国的每一个世代的宗教忠诚度都比前一个世代更低。 这就是社会科学当中的证明方式。逻辑上讲,当然有可能存在其他的解释。但是既然还没有人提出其他解释,我们就接受这种解释。举证的责任这时已经落在了别人身上。

总之,我们可以通过各种方式来编排数据,以识别出其中存在的模式。数据可视化的目的就在于此。没有能够包治百病的灵药,有些数据作图确实根本没有什么用(比如说至今还会有人只是为了炫技,用大型网络数据绘制出仿佛毛线团一样的“网络图”来)。你应该做的就是暂时把理论放在一边,就像去探索一个地方的地貌一样去探索数据。有没有一些变量全部堆积在某些取值上?有没有一些变量完全没有变化?有没有其他变量有着几乎同样的变化趋势?如果你有一个全国性数据,数据的分布结构是按地区展开的,就一定要绘出地图来,或者至少区分城乡来分析。不要明明 知道 数据有某种特征,却非要用某种技术手段来把它“控制”掉,这种做法就相当于你非要在布鲁克林找一位种玉米的农民,来了解他对于用水政策的看法。相反,你要带着你的兴趣或者直觉,尝试在数据的呈现中深化它们;你已经了解数据的那些不可避免的特性,因此也会选择与之最相匹配的数据呈现方式。

另一方面

我热衷于模式识别。但是有一种做法与模式识别看似相似,其实却是个陷阱。我将其称为“玩数据”(messing around with data)(我在《领悟方法》第8章中对此略有涉及)。你得到了一个新数据,然后试验各种算法,对数据进行各种转换,使用你知道的各种炫酷技术,做出各种图表来,对某种算法的作图进行编码,然后再用某种算法再编码再作图……。你熬到凌晨四点的时候,终于得到了一张极酷的图,但是你怎么也搞不清是怎么画出来的。

归纳指的是寻找稳健的模式,那些模式不需要对数据进行过分的涂抹揉搓,它是直接跳入你的眼帘的。“玩数据”并不能帮助你对真实的数据有切实的了解,其作用有点像比萨饼上面的那堆配料。你以为那些花里胡哨的配料都是肉,但是你知道它们是怎么做出来的吗?我不告诉你,因为怕你会吐。他们使用了好多加工的办法,而里面其实没有多少肉。遇到这类花哨而空洞的东西,你最好躲远点。接下来,我们还是来看一些好懂又可靠的技巧,帮助你明白手头的数据在可能的全部数据集中的位置。 DPgvh+KW0QpSFMXAQMLxkLddhKpAVVkMv/R/bK4pqMgFbwmTugXQlNMfl4AzpuZp

点击中间区域
呼出菜单
上一章
目录
下一章
×