购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 到底什么是统计学

在前文中我们了解了一些有趣的统计学结论和统计学的主要应用场景。本节将介绍统计学的起源和发展,这也是本章的最后一节,通过本节的学习,读者能把握住统计学的脉络,总览该学科的主要内容,对后续学习大有助益。

1.3.1 统计学的起源

归类于统计的实践活动可追溯到远古时代,自原始人类龟卜结绳,统计和数学便一起诞生了。在奴隶时代,奴隶主出于征兵、征税的需要,定期或不定期地开展一系列有关人口、土地和财产的统计。在亚里士多德时代,古希腊开始记录城邦纪要,内容包含各城邦人口、领土、财产的详细记录,由此开创了统计学。

与理论数学不同,统计学一诞生,便肩负着认识现实事物的任务。在17世纪中叶,出于争夺世界霸权的目的,英国发展出了政治算术学派,这个学派的任务便是用数字来描述一国的经济、军事水平,并将英国国力同其他各国国力进行对比。

在这一过程中形成了许多现在仍通用的统计概念和准则。

首先,统计数据有别于理论数学,它所涉及的每一个变量都有实际意义,在数据收集工作展开前,需要提前设计数据的定义、取值范围、收集方法等,它的最终结果也能解释为现实含义。

其次,数据应遵循简约可信的原则进行收集和展示。即数据的展示形式应简约清晰,有用信息可凸显出来,图表是最佳展示方式。数据不应被人为篡改或误录,如存在真实的反常数据,则应当提供可靠的解释。

最后,这一学派提出了间接估算的统计方法,例如,根据死亡人数估计总人口数等。

这一学派出色地描述了国家的经济社会状态,帮助决策者客观认识了自己的国家,他们提出的一些统计指标至今仍具有意义,例如,国民总收入、经济增长速度和人民生活水平等。随着经济的发展,人民所关注的统计变量越来越多,例如,就业率、各类物价和经济指数等,所有这些数据合起来,逐渐演变为经济统计学。

对统计学而言,这些数据收集工作是最基础也是最重要的工作,这些工作可给出许多问题的答案,至此,统计学仍局限在描述统计的层面。

这类工作似乎简单枯燥,但它需要科学的指标体系和可操作性强的收集方法。如今社会有许多统计机构,公司内部也有自己的统计部门,它们所完成的工作大部分都属于这一类。

19世纪中叶,大量观察法被提出,即数据中隐藏的规律必须在大量数据中才能体现,那么对相同的事物做大量的观察,便可得到该事物的一般特征。由此,统计学的内容被大大延伸,统计学又肩负了另一个重要的任务,即寻找数据的统计规律。例如,男女婴儿的出生比例总是接近1:1,人类的平均寿命在缓慢增长等。

1.3.2 开启推断统计之门

前文已经提到,当样本数据无限大时,样本均值会无限接近于总体均值。考虑样本均值和总体均值的误差,容易想到这些误差有大有小,有多少个样本就有多少个误差。将这些误差绘制下来,可得到一个优美的钟形曲线,这就是正态分布。

既然误差服从正态分布,那么原数据应当也服从正态分布。假如一批数据可以很好地拟合为正态分布,就可以认为这批数据来自同一个整体;反之也成立。这个思想在19世纪中叶提出,到19世纪后期,人们逐渐发现数据并不全都服从正态分布,指数分布、卡方分布等逐渐浮出水面。

在同一时期,相关与回归理论也逐渐形成,此二者所具备的数学内涵极大地丰富了统计学的内容,并促进了统计学框架的完成。总的来说,由于我们无法真正地实现无限次实验,因此数据的统计规律只能是使用数学工具推断得出,此即推断统计。

提示

了解数据服从的分布有十分重要的意义,它们最重要的应用有参数估计、假设检验和方差分析等。

参数估计可用于估计一个点,也可用于估计一个区间。点估计的意义在于使用样本信息去估计总体的一个值。例如,蔬菜在不同地区的价格不同,调查一部分地区的蔬菜价格,并用其均值作为蔬菜的真实价格,这就是一个点估计。而用包含其均值的一个区间作为蔬菜真实价格的可能区间,则是一个区间估计。这个区间上下限的选择与蔬菜价格服从的分布有关,区间越大,蔬菜真实价格落入这个区间的可能性也就越大。

假设检验是参数估计的进一步发展。既然有了估计区间,那么当拿到一个新的样本数据时,只需检查它是否落入这个区间,便可知道它是否属于这个整体。这种方法总是用于产品质量检查,例如,零件是否太大或太小等。

依赖于正态分布的参数估计和假设检验都只能应用于一个或两个总体,当总体个数多于两个时,就需要使用方差分析。方差分析最早应用于稻田试验,当多个稻种同时被播种时,使用方差分析可找出产量最高、表现最好的稻种。

相关分析与回归分析比较侧重于数学运算。

相关分析的目标是寻找出一对彼此联系的变量,例如,孩子们放暑假时,街上的冰淇淋小贩会增加。相关分析不但能刻画一对变量是否有联系,还能指出这种联系的强弱程度。通过这种分析,还能发现一些不易察觉的联系。

回归分析则给出一个数学模型,精确地指出一个参数的波动是如何影响另一个参数的波动的。例如,父亲的身高平均增高1厘米,儿子的身高平均增高0.8厘米。与相关分析不同,回归分析要求两者存在因果关系。例如,父亲的身高会影响儿子的身高,但儿子的身高不会影响父亲的身高,此二者不可颠倒。

1.3.3 与计算机科学的交叉和结合

在推断统计理论形成后,统计学家得以克服样本数据较少的问题,利用数学工具和少量样本就可刻画真实世界。计算机学科的飞速发展带来了海量样本和高速计算能力,这使情况有了质的变化。

与计算机学科关联紧密的统计学派名叫作贝叶斯派。推断统计认为总体是符合某一种分布的,需要做的就是根据样本找到这种分布,从而反推出样本的特性,因此只需较小的样本数量就可刻画总体特性。而贝叶斯派则认为总体是未知的,样本每多一个,对总体的掌握也就更多一些,因此样本数越多越好。

提示

以这种思想为基础发展出了非参数估计,即最大似然估计、核密度估计等。此外,还发展出了各种聚类方法及以贝叶斯理论为核心的文本分析方法等。这些方法的原理可参阅后续相关章节。

总而言之,在与计算机科学相结合后,统计学肩负起第3个任务,即增加人们对总体的认识,以减少不确定性。有别于第一个任务,如今统计学对事物的刻画更加细腻真实,在海量数据的支撑下,我们对真实世界的认识也越来越完善。 aS2SsGp3+49vftBJEvwb+1xbXg/YldUZ5tVSR3NB9Rrng1KiUAUZent7ppN2IC8K

点击中间区域
呼出菜单
上一章
目录
下一章
×