统计学就是从数字资料中获得相关信息的科学。统计的目的是为了获得对数据的理解。数据是由一些数字组成的,但是它们并不是“单纯的数字”。数据是有上下文背景的一些数字。例如,单纯的数字8本身并不能够传递任何信息,但是如果我们听到一个朋友的新生儿在出生时体重达到8斤,我们就会向孩子的妈妈祝贺生了一个8斤重的健康宝宝。这种上下文背景将数字与我们的相关知识联系起来,并使我们做出正确的判断。我们都知道一个体重达到8斤的新生儿是相当大的一个婴儿,然而对于一个婴儿来说,体重8两或者是8公斤也都是不太可能的事情。因此,上下文的背景使这个数字拥有了信息意义。
因为数据是具有上下文背景的数字,所以在我们对数据进行统计时就不仅仅意味着对数字的操作。同时,我们也希望读者在阅读本书的过程中,不是仅仅计算,而是有更多的思考。如果人们希望统计学是一个充满秘诀的“又一个数学课程”的话,其结果是令人很不舒服的。这是因为,统计学并不是数学(尽管探寻统计学的奥秘将用到数学的基础知识)。因此,请大家放松并动脑筋去探寻统计学的奥秘。
统计观念和技术是人们长期与不确定数据资料进行斗争的过程中才逐渐出现和形成的。几乎是在两个世纪以前,天文学家和一些观测者面对将许多观测结果结合起来的问题,尽管他们非常细致小心,但是这些结果还是没有准确地相互匹配。于是,他们处理数据资料变异性的能力产生了最早的统计技术。随着社会科学在19世纪的产生,旧的统计观念不断被变革,新的统计观念被创造出来以描述整个自然界、社会和个体的变异性。生命科学中有关遗传学和可变群落的研究进一步推动了统计学的发展。在20世纪的上半个世纪,终于诞生了为了产生数据资料的统计设计和基于概率论的有效推理。到20世纪中期,统计学作为一个新的学科诞生了。由于各个研究领域越来越重视数据资料,并逐渐认识到数据资料的变化是不可避免的,因此统计学就成为解决这一问题的核心智力方法。每一位受过教育的人都应该熟悉统计推理。通过对本书的阅读将使您能够熟悉统计推理过程。
我们为什么要学习统计学呢?其原因很简单,因为我们需要它,我们使用它。随着人类社会的迅速发展,数字资料的使用在越来越多的行业与工作中变得更加普遍,例如,在国民营养状况的调查、新药品的生产与推广、体育彩票的发行、体重指数与糖尿病发病率相互关系中等等,可以说数字资料已经渗透到老百姓的日常生活中。运动人体科学作为体育与医学以及生理学、生物化学、解剖学、心理学、生物力学等学科的交叉学科,近年来在我国迅速发展起来。经济的腾飞、生活条件和生活质量的改善使人民更加关注自己的身体健康,如何降低糖尿病、心脑血管疾病等一系列老年性“富贵病”的发病率成为广大人民群众越来越关注的焦点问题;另一方面,随着现代奥林匹克运动的迅速发展,特别是伴随着2008年北京奥运会的到来,针对竞技运动员的疲劳、恢复、营养补剂、心理调控、技术动作分析、甚至是运动装备的研究大量涌现。本书将就以下运动人体科学研究中的数据处理与分析的统计学问题进行探讨:
▶在2005年中国第二次国民体质监测公报中,成年人体质优秀率为15. 5%,不合格率为13.2%。这个数字究竟是什么含义?政府又是如何得到这个信息的?(如果你我咱们都是成年人,那么你的体质是优秀?还是不合格呢?)官方的不合格率有多大的准确性?
▶研究指出,全球有45%以上的运动员在高原训练过程中受益。这些信息来自何方?准确吗?
▶医学实验研究告诉我们,有规律地补充阿司匹林可以有效地降低心脏病发生的危险性。为什么这些实验研究是令人信服的?补充阿司匹林的效果有多好?
▶为了缓解孕期恶心而补充药物“镇吐灵(Bendectin)”可以导致婴儿先天缺陷吗?吸烟会导致肺癌吗?在这两个事例中,证据都被称作是“统计学上的证据”。这是一种什么样的证据?为什么统计学上的证据有力地反对吸烟,而在反对药物“镇吐灵”方面却是无力的?
▶随着国家体育彩票和各种福利彩票的发行以及国外赌场数量的增加,更多的人由于误解了机率而损失金钱。“平均数法则”对于一名赌徒来说意味着什么?有没有一个系统能够在赌场赢钱或者使我们赢得彩票?
▶实验设计对于一款运动饮料功效的证实有那么重要吗?统计方法是由实验设计决定的吗?
数据资料的变化。个人、动物和一切事物是变量。即使是针对同一个个体的重复测量也是一个变量。因此,基于数据资料得出的结论也是不确定的。统计学直接面对整个世界的变化和不确定性。统计推理过程产生的数据资料,其使用价值可以免受变异性和不确定性的破坏。它能够通过分析数据资料将系统模式的变化与始终存在的变异区分开来。尽管在现实世界中没有完全确定的事情,但是统计学可以得出不确定性很小的结论。更加重要的是,统计推理能够使我们知道结论存在多大的不确定性。
为了达到能够理解数据的含义并且恰如其分地处理与分析这些数据,将整个研究过程分为三个组成部分:
Ⅰ.数据的产生
Ⅱ.数据的组织与统计分析
Ⅲ.由数据得出结论
在本书的第一部分,我们将介绍为了能够得到好的数据资料而进行的统计学设计。这是由于,尽管抽样与实验中的许多观点是简单的和非数学的,但是它们却是一些统计学中最重要的概念。本书的第二部分提出为了探索数据资料所需要的一些图形与数字工具和策略。本书的第三部分致力于统计推断,并将进一步讨论实验设计与统计方法问题。推断是利用概率语言从数据资料中得出结论的过程,同时每个结论伴有一个正式的声明,说明我们有多大的把握保证这些结论是正确的。实验设计体现了统计思想,重复性、随机化和区组化是实验设计的三个基本原理。实验设计的基本原理是每个实验的重要组成部分,同时也是实验能够客观、准确并且有效地反映客观规律的基础。
本书上述的框架提纲支撑着有关数据资料、实验设计和机率推理的“血和肉”。本书审视国民体质监测结果、营养与健康调查结果、以人为研究对象的实验研究的道德规范、实验设计的类别及其统计方法、那些用数字误导我们的诡计、有关因果关系证据的微妙问题以及更多其他方面的知识。
阅读本书的目的应该表现在四个方面。第一,理解统计观念本身的内涵。其中关于数据资料和机率推理的思想观念是主要的智力收获,是值得关注的重要问题。第二,获得用钻研眼光对待数字论证的能力。当人们使用数字论据时,许多人会过分地轻信其结果,只是对少数几个外表稳固的数字产生深刻的印象,而不试图透过现象看到其论点的本质。有一些人过分地愤世嫉俗,他们认为数字天生就是骗人的,从不相信数字。数字形式的论点与其他的论点相同,一些是好的,一些是不好的,一些是无关紧要的。适度的强词夺理才能够使你坚持自己的观点而反对那些数字游戏的玩家。第三,能够理解统计观念对公共健康政策的影响,以及其他学术研究领域中的应用。第四,理解实验设计与统计方法的紧密关系。严谨的实验设计是生命科学研究的有力武器,而合理的统计分析是这个“武器”充分发挥威力的保证。