随着统计分析与数据挖掘技术的日益普及,建立在统计分析和计算科学基础上的研究方法也逐步向诸多学科渗透,已经有越来越多的学者认识到统计科学及其思维模式在基础理论研究、社会发展和人才培养中的价值,于是统计思维的概念与理论应运而生。
案例1:对学生评教有效性的争论
某高校的教职工代表大会(简称“教代会”)会场,代表们吵成了一团,有的代表大声疾呼:“不要再让学生评教伤害教师们的感情了!”“学生评教会毁了学校的教学质量!”原来,学校把年终奖发放与学生评教成绩挂钩,此事引发了强烈的争议:有些教师认为这样做非常好,有利于激发教师的积极性,鼓励教师上好课;而另外一些教师则认为,学生评教成了部分差生攻击报复教师的利器,导致教师不敢管理班级、不敢批评学生。
教代会代表形成了势均力敌的两个阵营,争论愈来愈烈。大会主持人一筹莫展。此时,从事量化研究的刘教授悄悄地靠近大会主持人:思辨与争吵不能解决这一问题!学生评教的质量高低、是否有效必须通过数据的统计分析得出。
于是大会主持人宣布暂时休会,并将聘请大数据专家通过统计分析、数据论证等手段对学生评教数据的有效性及应用情况展开研究,然后在下次教代会上汇报研究结果。
专家对200余万条评教数据展开了效度和信度分析,论证了学生评教数据的有效性,并进一步探究了评价较低的教师存在的问题,为其提供了有效的改进建议。
案例2:这个新药有效吗?
医药服务集团A公司组织专家团队经过多年的研究,研发出一款新型药品,现在要进入人体实验阶段。
根据研究需要,A公司遴选了2000名病情、体重、血压等条件基本相同的病人作为被试,从中随机选出1000名病人服用新型药品,而另外的1000名病人服用安慰剂。服用新型药品的病人为实验组,服用安慰剂的病人为对照组。所有参与本实验的人员均认为自己在服用新型药品。
经过10天实验之后,A公司获得了大量的医学数据。基于这些数据,A公司专家展开了3方面的分析:①针对实验后的数据,利用独立样本T检验分析实验组和对照组的差异是否显著;②分析所有病人在实验前后的状态,利用配对样本T检验分析差异是否显著;③对于完成实验的所有被试,基于其生理指标做聚类和相关性分析,以便把被试分为若干类别,分别实施干预。
研究结果表明:这种新型药品的疗效有限,效果不显著,没有推广的价值。
案例3:专家们的评价可靠、有效吗?
体操和跳水比赛的成绩受裁判员影响非常大,保证裁判员评价的科学性、可靠性和有效性是非常关键的一点,找出评价质量不高的裁判员并予以替换则关系着整个比赛的公平公正。
借助统计分析的策略,对于每轮给分,都首先去掉一个最高分,再去掉一个最低分,删除给分中的极值。针对保留下的得分,只需要做一个基于秩分的差异显著性检验。若运动员的得分之间均具有较高的区分度,则说明裁判员给分具有较高的一致性,即可论证专家评价的有效性。相关内容详见4.2.3节。
案例4:如何平衡不同专家组给出的评价成绩?
高校A是一所著名的985高校,在某年的硕士生面试环节,其C学院的面试工作面临着巨大挑战:因为进入复试的人数过多,所以面试的工作量将会非常大。经办公会讨论决定:组成5个面试小组,每个面试小组负责30名考生的面试。在面试工作结束后,把5个小组上报的面试成绩按照降序排列,依次录取。
然而,有考生质疑:不同小组的专家在给分方面有可能存在偏差,这种偏差将影响考生的排名。换句话说,给分比较宽松的小组中的考生会占便宜。
鉴于这种情况,学院领导做出了“各面试小组须分别对本小组的面试成绩做标准化处理,然后按照公式【T分数=标准分* 20 + 40】重新赋分”的决定,以生成同一标准下的学生得分。
借助统计学中的T分数,A校C学院很好地解决了不同专家组的给分可能不一致的问题。
案例5:以量化分析为主体的科研论文,方法用对了吗?
B高校C学院的刘教授正在评阅学生们所做科研课题的结题报告。在批阅报告的过程中,刘教授时而击节赞赏,时而唉声叹气,时而一副“恨铁不成钢”的郁闷之状。同事小张很是惊讶,问刘教授为何如此。
刘教授回答说:“我在看学生们的结题报告。这几份报告,不论是从选题,还是文献,抑或是论文结构看,都本应该是优秀报告!可偏偏是统计分析方法用错了呀——这份是把实验组与对照组之间的对比做成了配对样本T检验;而这份却对定类变量用了皮尔逊相关分析。我只能给他们‘不及格’了!太可惜了!真是太可惜了!”
在科学研究中,错误的数据处理方法会直接导致研究结论不可靠!这样的论文,在论文评审中会被“一票否决”,因为整篇论文的论证就不成立啦!因此,面向硕士生、博士生开设研究方法类课程,特别是基于数据论证的量化研究类课程势在必行!
上述的5个案例,均是现实生活中会真实发生的事,体现了统计分析方法在现实问题中的应用。这些案例,既有学校管理方面的,也有体育比赛领域的,还有与理工科研究项目密切相关的。从这些案例可以看出,统计思维已经渗透到了人们学习、生活、科学研究的诸多方面。因此掌握一些统计分析方法,培养自己的统计思维,提升自己的统计分析素养,对于当今社会的人才发展是至关重要的。
希望这5个案例,能让各位读者对统计分析方法的作用、统计思维的重要性建立起初步的了解,渐渐掌握甚至爱上统计分析!
管理信息化、教育信息化、企业现代化的快速发展,促使各行各业极快地积累起了大量数据,使人类快速进入“大数据时代”。如何充分地利用这些数据,从中总结出规律,以便为下一步的决策提供依据,或者依据数据分析实现智能化推送,已经成为社会科学的重要研究领域。
分析数据内部所蕴含的规律、预测相关系统的运行趋势,已经成为当代信息处理的主要任务,成为每一个机构、每一个科研项目必须面临的课题。基于这一需求而快速发展起来的数据建模技术、数据挖掘技术已经成长为计算机科学的重要应用领域,也成了管理与决策的重要依据。
因此,大数据时代,每一位研究者都应该成为“数据之海”的弄潮儿,具备专业化的数据挖掘和数据分析能力,这些能力也是个人发展的重要助力。在科学研究活动中,以统计学的原理为指导,借助统计学的技术,开展各种层次的统计、分析、归纳和挖掘,对科研成果的生成、研究结论的论证非常重要。综上所述,科研统计思维培养是大数据时代学科发展的迫切要求。
众所周知,统计分析是理工类专业实验数据处理、结论归纳,获得有价值的研究成果的重要方法。然而,在计算机科学和统计分析软件真正地普及以前,基于大量的调查数据开展统计与分析是一项计算量很大的工作,而且要求研究者精确地了解统计学的基本理论,掌握每个统计分析算法的机理和规范。因此,彼时对量化研究者的要求非常高。在社会科学的研究中,传统的研究以质性研究方法为主。然而,随着专业化统计分析软件的普及,借助统计分析工具开展量化研究已经成为很多文科科研人员的常规研究方法。
不同学科所形成的统计研究方法在计算机科学与技术的支持下实现了快速发展。自然科学的主流研究方法范式——实验数据的量化处理,发展出了一整套形式语言理论、编译理论、检验理论及优化理论。而人文社会科学的主流研究范式——思辨研究、质性分析,也受到了计算机科学和数据处理理论的冲击,从基本文本分析到语义分析、语料分析处理,都能借助计算机将原本只有人工才能进行的复杂分析机器化和程序化,并借助数据处理的理论和方法获得了可信度更高的研究结论——“基于数据做论证”已经成为广受认可的研究方法。
当统计分析方法作为工具和技术所承载的方法论属性渗透进来后,它已经超越了学科疆域的研究规则和框架,而是形成了跨学科的研究范式。也就是说,科研统计思维的理念和模式已对众多学科的研究方法体系产生了重要影响,甚至从根本上改变了其原有的研究范式。
在传统的科研数据处理中,如果想基于数据开展量化研究,则需要以统计学、统计分析的理论为基础,通过大量的数据计算,分析数据之间的相关性、差异性,甚至包括归因分析、聚类分析(降维分析)等,才能获得研究结论。这一过程涉及的规则很多、计算量庞大,对非计算机专业和非统计学专业的多数学者来讲,都存在着很大困难。然而,随着众多统计分析软件的出现,为面向数据的统计与分析提供了很好的工具,特别是SPSS、SAS等软件的出现,极大地促进了科研统计思维的普及与发展。目前,对多数从事人文科学研究的科研人员来讲,SPSS和SAS中的各类统计分析工具就像一个只有“输入”和“输出”的“黑匣子”,在开展量化研究的过程中,不需要了解黑匣子的内部结构,只需要能精确地掌握其输入数据和各项参数,并解读其各类输出结果所代表的具体含义,就能够很好地使用它们。统计分析软件的广泛使用,推动了科研统计思维的普及,使科研统计思维在人才培养中的地位日益提升,科研统计思维的策略在科研、教学中日益重要。
因此,尽管面向非计算机专业和非统计学专业学生直接讨论数据挖掘和统计分析技术的原理和算法会存在困难,但是,如果只是把数据建模和数据挖掘技术的概念、方法和工具以科研统计思维的模式介绍给学生,允许学生在借用数据建模和数据挖掘的现有工具时不必详细掌握其内部的算法结构,只需了解每个工具的输入、输出及其参数规范,让学生逐步具备准确地使用统计分析工具并解读统计分析结果的能力,还是完全可行的。如果做到了这一点,我们的学生在参与普通科研活动时就能借助这些工具开展统计分析并能根据分析结果获得比较准确的量化结论。与此同时,如果学生们熟练掌握了这些工具的用法,也一定能够拓展学生的解题方法,使研究的科学性、严谨性都能得到很大的提升,从而优化其思维方式,促进其科研能力的发展。