购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

附录2A
绘制和解释图表

当你开始学习经济学时,很重要的一点是要很好地掌握如何理解数据,以及如何以可视化的形式清晰地呈现数据。图表无处不在,在电视、网络、报纸和杂志、经济学教科书上都可以看到。为什么图表如此受欢迎?

精心设计的图表是对大量信息的总结。俗话说得好,“一图胜千言”。 本书包含了许多图表,你会发现,图表是对经济学概念语言描述的一种有益补充。

事实上,可视化在经济分析的每个阶段都非常有用。正如你将在本书中看到的,简单的图表能够揭示模型中变量之间的关系。图表能够让研究人员识别数据中重要的潜在属性,比如时间趋势,从而使复杂的数据库更加直观。为了说明数据可视化如何助力经济分析,我们将向你介绍本书作者之一约翰·A.李斯特的一项研究,并在此过程中介绍数据可视化。

一项关于激励的研究

如果我们付给你50美元,你会不会更努力地学习经济学,让自己这门课的成绩得A?如果我们把奖励提高到500美元呢?你的第一反应可能会是:“啊,当然……为什么不呢?这笔钱可以买到一部新的苹果手机,或者买一张妮琪·米娜演唱会的票。”

但是,正如我们在第1章中学到的,发奋学习是有机会成本的,例如,它可能会占用你听演唱会的时间,或者占用你在最喜欢的咖啡厅和朋友聊天的时间。你必须将这些机会成本与在这门课上得A的收益进行比较。你也许会说,反正这是个假设性问题,没必要更深入地思考自己的可能的行为。

但如果这个问题是真实存在的呢?

在过去的几年里,真的有数千名学生得到了这样的金钱奖励。萨利·萨多夫、史蒂文·莱维特和约翰·A.李斯特在位于芝加哥郊区的两所高中进行了一项实验。在这场持续了数年的实验中,他们使用激励措施试图改变学生的行为。这样的实验让我们能够思考两个变量之间的关系——具体到这个例子,就是看经济奖励的增加会如何影响学生的考试成绩。这也自然会导致对原因和结果的讨论,正如我们在本章学到的,我们会检验变量间简单的相关关系,并确定是否存在因果关系。相关关系和因果关系都是能够帮助我们理解周围世界的强有力概念,并且正如我们将看到的,数据可视化是进行这项分析的重要工具。

实验设计

芝加哥海茨有两所高级中学,这两所学校都存在高辍学率问题,经常有超过50%的九年级学生在获得高中文凭之前就辍学。这个问题并非芝加哥海茨所独有,许多城市学区也存在着类似的问题。

经济学家能帮上忙吗?为了降低辍学率,同时提高在校学生的成绩,经济学家设计出了不同的激励措施。本例中的激励措施便是为那些学习成绩提高的学生提供金钱奖励。

让我们先看看这个旨在降低辍学率的实验。所有学生被随机分为如下三组:

对学生进行激励的实验组: 学生每个月只要达到实验者设定的特定学业标准(具体内容见下文),就会在该月获得50美元奖励。

对家长进行激励的实验组: 学生每个月只要达到实验者设定的特定学业标准,他们的家长就会在该月获得50美元奖励。

对照组:学生或者家长都不会得到和学习成绩挂钩的金钱奖励。

学生要达到设定的月度标准,需要做到如下3点:

(1)当月没有任何一门课成绩为D或者F;

(2)当月无故旷课不超过一次;

(3)当月没有被停学。

描述变量

在了解这些学生实际上获得了多少奖金之前,让我们先仔细地考察一下我们可能感兴趣的变量。顾名思义,变量是一个可能会变化的因素,也就是说,它可以在不同的情况下取不同的值。在本部分,我们将向你展示如何使用饼状图、柱状图、时间序列图来描述变量。

饼状图

饼状图非常容易理解。 饼状图 是将一个圆分为大小不同的扇形,每个扇形的面积体现着自身与剩余其他部分的相对重要性,这些部分加起来便是整个饼状图。饼状图显示了某个经济变量可被分成若干组成部分,每个部分占总变量的一定比例,这些部分各自所占比例加起来等于100%。

例如,在上述实验中,我们要求学生从下面各项中选择一个(且唯一的)类别:非裔美国人、非拉丁裔白人、拉丁裔美国人、其他。从图2A.1中我们得知,参与实验的九年级学生中有59%是非裔美国人。因此,我们将饼状图中59%的区域标记出来,并以其代表非裔美国人占所有实验参与者的比例。我们看到有15%的学生认为自己是非拉丁裔白人,在图中我们将其用相应图例表示。我们继续对参与者进行划分,直到整个圆被100%填满。这个圆所描述的就是实验参与者自我认同的种族和民族身份构成。

图2A.1 芝加哥海茨实验参与者的种族和民族划分

注:饼状图以一种直观方式展现了芝加哥海茨地区所有参与实验的高中生的四个不同类别。各种族的学生所占比例加起来是100%。同样,代表各种族学生的扇形加起来就是一个完整的圆。

柱状图

另一种可以用于总结和显示变量的图表是柱状图。顾名思义, 柱状图 使用不同高度或长度的柱子来表示不同组别的特性。柱状图便于将单个变量在不同组别之间进行比较。要想制作柱状图,你只需绘制一些并排的矩形,并使每个矩形的高度(在水平柱状图中则为长度)与其所描述的变量值保持一致。

例如,图2A.2展示了各组学生的总体成功率。在该图中,横轴或者 x 轴为 自变量 ,即由实验者选择的变量(比如本研究中学生被随机分配的实验组和对照组)。纵轴或 y 轴为 因变量 ,即可能受实验影响的变量。在图2A.2中,因变量是达到学业标准的学生占比。请注意,图中数值1代表占比为100%,0.3代表占比为30%。

图2A.2 各组达到学业标准的学生占比

注:柱状图便于对各组之间的数字进行对比。在本例中,我们可以通过比较每条柱子的高度来比较各组学生在达到学业标准方面的表现。例如,对家长进行激励的实验组的柱子比对照组的柱子高,这意味着对家长进行激励的实验组的学生达到学业标准的比例高于对照组。

我们在图2A.2中发现了一些有趣的实验结果。例如,我们可以看到,对照组的学生(即没有获得激励的学生)中有25.1%的人达到了学业标准。相较而言,对家长进行激励的实验组的学生中有32.5%的人达到了学业标准。后者达到标准的学生数量大幅增加,这证明激励起了作用。

时间序列图

通过饼状图和柱状图,我们可以总结出如何将一个变量分为不同的组,但是如果我们想了解一个变量会如何随着时间推移而发生变化,又该怎么办?例如,达到学业标准的学生占比在整个学年是如何变化的?用时间序列图便可解决这个问题。 时间序列图 展示的是在不同时间点的数据。

以图2A.3为例,它显示了在对照组和对家长进行激励的实验组中,每月达到学业标准的学生所占的比例。请记住,尽管有多个月份和组别,我们仍然只衡量一个单一的变量——在这个例子中为达到学业标准的学生占比。图2A.3清楚地表明,对家长进行激励的实验组中达到学业标准的学生数量高于对照组。但请注意,这两个组之间的差异每月都在变化。如果没有一个时间序列,我们就不能了解这些月度差异,也无法了解激励措施的有效性会在整个学年里发生何种变化。在你阅读本书时,请记住,我们讨论的变量可能随时间发生变化,而时间序列图在跟踪这些变化方面是极其有用的。

图2A.3 每月达到学业标准的学生占比

注:时间序列图提取了柱状图中的一些信息,并展示了在实验期内其每月是如何变化的。将图中的点连在一起则能更清楚地展示每月的变化趋势。此外,通过使用不同线条,我们能在同一图中展示两个组(对照组和对家长进行激励的实验组)的数据,从而可以像前面的柱状图一样对两个组进行比较。

原因和结果

我们已经在本章中讨论了因果关系和相关关系。经济学家对前者更感兴趣。因果关系以一种积极的方式将两个变量联系起来——如果b是由于a而发生的,则a就是b的原因。

例如,我们从上述实验研究中得出结论:对学生的表现予以金钱奖励能够提高他们的学习成绩。如果实验操作不当,例如,学生没有被随机分为对照组和实验组,情况就不一定如此。例如,假设实验者把所有过去成绩不佳的学生都放进了对照组,那么,对照组相比实验组表现较差可能是因为其本身的学生构成,而不是因为缺乏金钱激励。从这样的实验中得出的学生学业成绩和金钱奖励之间的任何关系都可能被解释为相关关系,因为在实验开始时所有其他条件就都不相同——对照组中的差生比例高于其他组。

幸运的是,芝加哥海茨的实验是依照本章之前讨论过的随机化原则来开展的。实验者将学生随机分到各组,所以每个组中的学生具有同样的代表性,换句话说,各组学生的平均智商等属性是相似的。因此,实验期间各组的学业表现差异都是由不同的实验条件,比如受到的金钱激励程度不同导致的。

这意味着我们可以得出结论:对学生进行激励的实验组和对照组在学业表现上存在差异的原因是前者得到了50美元的激励,而后者没有得到进步激励。

相关关系不一定意味着因果关系

相关关系经常被误认为是因果关系。相关关系确实意味着可能存在因果关系(这也是我们需要进一步深入探究的原因),但并不一定如此。例如,不久前,一名高级营销主管向我们展示了图2A.4(出于保密原因,图中数字已做更改)。他试图证明所在公司的零售广告有效地增加了销售额:“图中显示了广告和销售额之间有着明显的正相关关系。当我们投放1 000条广告时,销售额大约是3 500万美元。而当我们只投放100条广告时,销售额只有2 000万美元。这证明更多广告会带来更高的销售额。”

在讨论图2A.4能否证明两者之间存在因果关系之前,让我们先思考一下图2A.4的基本特征。在该图中我们看到:

1.横轴(或 x 轴)标绘出的变量 x ,在此图中代表广告数量;

2. 纵轴(或 y 轴)标绘出的变量 y ,在此图中代表以万美元为单位的销售额;

3. x 轴与 y 轴的交点为原点,销售额和广告数量在原点都为0。

在图2A.4中,广告数量是自变量,销售额是因变量。当两个变量的值向同一方向同时增加时,它们呈正相关关系;当一个变量的值随着另一个变量值的增加而减少,即两者变化方向相反时,它们呈负相关关系。

图2A.4 广告与销售额

注:如果只看销售额和广告数量的关系图,我们很容易得出结论说,更多的广告会带来更多的销售额。但是,如果没有进行随机化处理,那么我们就有可能忽略图中漏掉的第三个变量。这个变量增加了销售额,并且和广告数量有关。此处是否隐藏着一个遗漏变量?

所以,在图2A.4中,我们看到两个变量之间存在正相关关系。那这种正相关关系的程度如何?我们用斜率来表示。 斜率 等于 y 轴所示变量的数值变化除以 x 轴所示变量的数值变化:

在这个例子中,随着广告数量从100条增加到1 000条,销售额从2 000万美元增加到3 500万美元。因此,垂直距离,即销售额( y 轴)的变化是1 500万美元;水平距离,即广告数量( x 轴)的变化是900条。因为两者都在上升(往相同方向移动),所以斜率为正:

因此,图2A.4表明,每多做1条广告,销售额就会增加约16 667美元。但是,这是否意味着在现实生活中零售商只要增加1条广告投放,销售额就必然增加16 667美元?

遗憾的是,并非如此。尽管我们很容易把销售额随广告数量的增加而增长理解为这两个变量存在因果关系,但不能确定二者一定是因果关系。在这个例子中,这位营销主管忘记了为什么他的公司会在一开始时就大幅增加广告投放数量——广告的投放数量可不是在实验中随机决定的。事实证明,该公司这么做是因为遇上了假日,而在假日中,企业的销售额无论如何都会很高。

所以,经过进一步的深入研究(此处我们省略了研究细节),我们发现这些数据实际反映的是零售商在购物旺季(感恩节前后和12月)投放了更多的广告,而这个时间段销售额本来就会因购物旺季的到来而上升。与本章前面所提到的百货商场红色广告的例子类似,销售的季节性变化因素充分解释了广告和销售之间的相关关系,同时也排除了存在因果关系的可能性。

这个例子说明,当你在一幅图中连点成线时,需要格外小心。我们不能仅因为两个变量同时移动(存在相关关系)就认为它们必然存在因果关系。可能只是其他变量导致了它们同时变化——在这个例子中,这个变量是购物旺季。

为了能更清楚地理解这一点,我们再看一张关于美国冰激凌月度产量和每月溺水人数关系的图。我们使用2011年中各月的数据绘制了图2A.5。在图2A.5中我们看到,在冰激凌产量相对较高的月份,溺水事件频发,在冰激凌产量相对较低的月份,溺水事件也要少得多。这是否意味着你不应该在吃冰激凌后游泳?

图2A.5 美国每月的冰激凌产量和溺水人数

注:本图描绘了美国月度冰激凌产量与溺水人数的关系。这12个点分别代表着2011年的12个月。这两个变量存在因果关系吗?还是说某个遗漏变量导致了这两个变量的联动?提示:图中右上角的点是7月的数据,左下角的点是12月的数据!

资料来源:美国疾病控制与预防中心;布赖恩·W. 古尔德,威斯康星大学乳品营销与风险管理项目(2011)。

确实,被这样一幅图劝服的家长可能会相信这是因果关系,并且坚决禁止他们的孩子在游泳池或湖泊附近吃冰激凌!但让我们这些冰激凌爱好者感到庆幸的是,这背后其实还隐藏了一个遗漏变量。在夏天,当天气炎热时,人们会吃更多的冰激凌,也会更经常去游泳。更经常去游泳则会引发更多的溺水事故。尽管人们在夏天会吃更多的冰激凌,但吃冰激凌本身并不会导致溺水。

正如在零售商广告的例子中购物旺季是一个遗漏变量,这个例子中的遗漏变量是高温天气。是高温天气让我们更经常去游泳,吃更多的冰激凌。而更经常去游泳导致了更多的溺水事故(正如我们所预料的那样)。尽管如图2A.5所示,吃冰激凌与溺水存在正相关关系,但吃冰激凌并不会导致溺水。

我们希望本附录既能帮你理解如何构建数据图表,也能让你明白如何去解读这些对数据的可视化展示。我们学到的很重要的一点就是,不能仅因为两个变量存在相关关系(且在图表中同时变动),就认为它们存在因果关系。因果关系是社会科学中的黄金标准。如果不理解两个变量间的因果关系,我们就无法可靠地预测当政府通过干预手段改变其中的一个变量时,世界将会发生何种变化。实验有助于揭示因果关系,例如我们通过芝加哥海茨的实验认识到,激励措施能够影响学生的表现。

附录关键术语

饼状图

柱状图

自变量

因变量

时间序列图

斜率

附录习题

A1. 你会如何用图表表现以下内容?

a. 美国的收入不平等在过去10年中日趋加剧。

b. 某国制造部门的所有劳动者都属于如下三类中的一类(且每名劳动者仅属于其中一类):31.5%的人高中辍学,63.5%的人拥有正规高中文凭,其余人拥有职业培训证书。

c. 2012年,亚拉巴马州的家庭收入中位数为43 464美元,康涅狄格州的家庭收入中位数为64 247美元。

A2. 下表中数据显示了巴西2004—2012年的咖啡产量。

a. 利用这些数据绘制一张时间序列图。

b. 2009—2011年,巴西的咖啡产量均值是多少?

c. 按百分比计算,2012年的咖啡产量比2009—2011年的产量均值增长了多少?

A3. 假设下表显示了美国女童子军(Girl Scouts,美国最大的女孩团体组织)所得收入和其销售的饼干盒数之间的关系。

a. 利用散点图来表示这些数据。

b. 这两个变量存在正相关关系还是负相关关系?请解释。

c. 你在散点图中得到的直线的斜率是多少?这一斜率与美国女童子军销售的每盒饼干的价格之间存在何种关系? X6ONkzOvM53o+FvwtAD/VnTpNlzQKQmdsj8w04gNo/ZzTfVrIYycuYpIS6xCkCnW

点击中间区域
呼出菜单
上一章
目录
下一章
×