统计主要是基于数据做计算并从中探究其内在规律,因此统计也被称为“统计分析”。统计分析的关键技术主要包括统计描述和统计推断两个层次。其中,统计描述是对现有数据只进行统计,并从数据的集中性、离散性和分布形态3个维度做出描述;而统计推断则是统计分析的主要手段,它主要指借助统计分析算法做出推断,即首先给出假设,然后基于数据计算,推断假设是否成立——计算出原假设成立的概率。
在统计分析过程中,人们通常需要了解数据序列中的数据会集中于哪一个数据点周围。该数据点是在统计分布上具有明显集中趋势的数值,代表数据序列的一般水平。常见的描述量主要有均值、中位数和众数等。
在统计中,均值、中位数是针对取值大小有意义的数据序列的集中性描述统计量,常用于身高、体重、长度等测量值;而众数主要用于描述取值大小无意义的数据序列的集中性,诸如民族、生源地等。
在统计分析中,人们通常需要了解数据序列在均值上下的波动程度,即对数据离散性的描述。数据在均值附近的波动性大小是序列的重要属性之一。衡量数据序列离散性的描述统计量主要有方差、标准差和异众比率。
在统计中,对于取值大小有意义的数据序列,人们通常以方差或标准差来描述其离散性;对于取值大小无意义的数据序列,则以异众比率描述其离散程度。异众比率指非众数组的个案在总体内所占的比重。
数据的分布形态对分析方法的选择具有重要影响。因此,在描述数据时,阐明数据的分布形态也非常重要。在统计学中,数据的分布形态主要有正态分布、均匀分布、指数分布、泊松分布等。另外,偏度和峰度也是描述数据分布形态的重要指标。
目前用得最多的统计推断技术主要有关联性分析、差异显著性检验、聚类分析、降维分析、信度和效度检验、主成分分析等多种。
关联性分析是指对两个或多个可能具备相关性的变量进行分析,从而衡量变量之间相关关系的密切程度。相关关系的密切程度可以分为高度一致性(即高度正相关关系)、高度相反性(即高度负相关关系)、不相关。
从关联性分析包含的策略看,关联性分析包含相关性分析和回归分析两个层次。
在统计分析学中,对两个数据序列相关性的分析主要通过相关系数r和相关性检验概率p值两个指标来体现。其中,相关系数r的绝对值在0到1之间,反映两列数据的关联程度;p值则为不相关的概率值。
若变量之间的关联性可以用一个函数式表达出来,那么人们把探索这个函数式的过程称为回归分析,把这个函数式称为回归方程。借助回归方程,一方面能够表达变量间相互影响的关系,另一方面还能用于预测。
随着大数据时代的来临,由于数据之间的关联常常为多维的、双向的,因此针对数据之间的内在逻辑,人们更加关注其关联性,而不是其中的因果关系。
差异显著性检验简称为差异性检验,用于判断两个数据序列是否存在显著的差别。数据序列的差异显著性检验分为均值差异性和分布差异性两种形式。对于具有正态分布形态的两列连续型数据,通常可检验其均值差异性,即通过检查均值之间的差异程度判断其差异是否很显著;而对不明形态或非正态分布的数据,则常常检查其分布差异性。
差异显著性检验是一种推断检验。通常首先假设两列数据之间没有显著差异,通过计算相应的统计量判断无显著差异的可能性(即概率p值)。在统计学中,通常以0.05为界限(即95%的置信度),若两列数据无显著差异的检验概率值p大于0.05,则承认原假设,即两列数据之间没有显著差异;反之,若两列数据无显著差异的检验概率值p小于0.05,则认为它们之间具有显著差异。
在调查或研究过程中,常常需从多个视角制作调查或评价指标,从而能够全面地反映调查对象的属性和特点。然而,调查完成后,研究者经常发现指标项非常多,难以凝练出较为简练的结论,或者因多个指标项的语义存在严重重叠,导致语义关系不清晰,这就需要基于数据进一步凝练指标项,以使研究结论维度更少,语义更清晰。
简而言之,降维就是减少评价指标的维度,进一步凝练指标项的过程,从而使结论变得更加易于表述和理解。
在数据统计与分析过程中,常常需要把成千上万的个案分成若干类,以便于操作。例如,人们把学生分为男生、女生,就是一种分类,还可以把学生按照综合表现分为优等生、良好生、普通生和差生,这也是一种分类。这种仅仅基于单个变量的分类非常简单,一目了然。然而,如果分类依据非常复杂,需要基于多个变量的取值来实施分类,那么其操作就需要专门的算法。
这种依据多个因素变量的取值,对个案分类的过程就是聚类分析,也叫分类分析。所以,聚类分析就是分析收集到的数据,根据其内在规律和特点,把相似的数据归结为一类,从而形成多个类别的过程。
在数据统计分析过程中,聚类分析可以分为针对个案(记录)的分类和针对变量(字段)的分类。针对变量的聚类过程实际上也是一种降维过程。
信度是反映数据可靠性的指标,用于反映数据是否可靠,是不是测量对象的真实反映;而效度是反映测量依据有效性的指标,效度通常由测量工具的有效性来体现。例如,以天平测量物体的质量,天平是有效的测量工具,那么这次测量效度就高。
主成分分析是从描述客观事物的若干变量中抽取其关键信息的统计分析方法,其作用是把描述某一类别客观事物的若干变量用较少的、更简洁的几个潜变量描述出来。
数据统计分析的发展遵循两条思路。其一,面向静态数据的数据分析(Data Anlaysis,DA);其二,面向动态数据的实时数据挖掘(Data Mining,DM)。
所谓面向静态数据的数据分析,是指借助数据分析专业软件,对通过社会调查、科学实验所获得的数据,或者对从信息系统导出的某一时间段的数据进行分析。这种分析很少考虑数据的动态性、过程性和变化性,往往是针对某一时间段的状态所做的数据分析。
所谓面向动态数据的实时数据挖掘,是指在信息系统中集成数据挖掘算法,以便信息系统能够随时针对动态数据开展分析。这种技术强化时间序列特点,依托支持动态数据采集和集成的数据仓技术,开展实时的数据分析。它对用户具有很高的要求,已经成为主流数据库系统的重要功能。
随着“大数据热”愈演愈烈,数据分析与数据挖掘的算法日益成熟,统计学、数据挖掘的技术手段被引入大数据处理过程中,起到了重要的作用。
首先,统计学理论被引入大数据处理领域,统计分析的手段已经变成了数据分析的常规手段。由于大数据的规模比较大,经过数据清洗的有效数据通常符合统计规律,因此信度检验、关联性分析、数据离散性描述(方差、标准差)、聚类分析、主成分分析等被广泛地应用到大数据处理的过程中。目前,这些技术已经被集成到多种计算机信息系统中,发挥着越来越重要的作用。
其次,除了传统的数据分析技术之外,遗传算法、神经网络、语义网络、分布式数据库管理等面向大数据的处理技术也已经日益成熟。
最后,专业的数据挖掘软件、数据推送技术快速发展。应大数据处理的要求,IBM、微软、甲骨文(Oracle)等公司都在自己的大型数据库管理系统(Database Management System,DBMS)中集成了数据挖掘技术,强化时间序列特点、支持数据挖掘技术的数据仓已经成为主流数据库系统的重要组件,为基于大数据的数据挖掘提供了强大的技术支撑。
大数据、并行计算、深度学习是当代人工智能的三大要素。人工智能建立于海量优质数据和应用场景的基础之上,基于海量数据的模型训练是深度学习的核心策略。在这个过程中,算法的质量、训练数据的数量、规模等因素尤为重要,丰富的海量数据集是算法模型训练的前提。大数据一方面为人工智能提供了大量的训练数据,另一方面还为人工智能的发展提供了优质的数据处理算法。在这个过程中,统计分析中常见的判别分析、聚类分析、回归分析等算法是人工智能领域模式识别和模型训练的基石,正是由于统计分析算法和统计思维的存在,人工智能才在近几年取得如此瞩目的成就。
统计分析的常见策略主要包括数据统计描述、数据差异显著性检验、关联性分析、回归分析、聚类分析、降维分析等内容。这些策略可以分为两个不同的类别,其一是对数据的描述与检验,其二是基于数据建模并依据模型对未来数据实施判定或预测。上述策略主要有两种关键思路。
(1)统计推断的基本思路
在数据检验前,先提出一种假设,然后按照特定的算法对假设进行检验,最后根据检验概率判定假设成立的可能性。这就是统计推断。
在实证研究中,人们通常先假设“不显著”,例如,实验班与对照班学生的成绩没有显著差异,或学生性别对物理成绩没有显著的影响,爱好与性别没有关联性。这个假设被称为零假设,简记为H0。然后利用已有的数据进行计算、归纳,最后根据统计规律分析零假设成立的可能性。
例如,在数据的差异显著性检验过程中,人们通常预先假设两列数据不存在显著性差异,然后依据SPSS或Excel内置的算法算出假设成立的概率值(即假设成立的可能性)。若假设成立的概率值p大于5%,则表示原假设是成立的,两列数据之间是不存在显著性差异的;若假设成立的概率值p小于5%,则表示原假设是很难成立的,即两列数据无显著差异的可能性很低,两列数据之间是存在显著差别的。
对两列数据的关联性分析也借助了这一思路。
(2)统计推断中常见的两种错误
在统计推断中,“显著性”是研究者期望得到的结果。例如,经过教学改革,实验班与对照班学生的成绩有显著性差异;在医药领域,服用新药的病人与服用安慰剂的病人身体状况有显著差异;在归因分析中,新媒体技术的应用对学生的物理成绩产生了显著影响……
对于“显著性”的统计推断,容易发生两类错误:其一,错误地拒绝了零假设,把不该显著的事情判定为“显著”。这类错误也被称为第一类错误(即α错误,或TYPE I错误)。其二,错误地接受了“零假设”,把本该显著的事情判定为“不显著”。这类错误也被称为第二类错误(即β错误,或TYPE II错误)。
从科学研究来看,犯第一类错误的危害较大,相当于把“无差异”判定为“有差异”、把“无效”判定为“有效”。这可能会衍生出后续的研究、应用,其危害将是不可估量的。相对而言,犯第二类错误的危害则相对较小,研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到正确的结果。
除了样本自身和计算精度的影响之外,在“何种情况下拒绝零假设”的标准对于减少两类错误非常重要。标准定得过宽,则容易犯第一类错误;标准定得过严,则容易犯第二类错误。
因此,在科学研究中,人们通常指定“检验概率值p = 0.05”作为判断是否承认零假设的标准(即常讲的置信度为95%)。当p≥0.05时,就承认零假设,认为研究对象的表现不显著;只有在p < 0.05时,才拒绝零假设,认为被研究对象的表现是显著的。在特定情况下,为了提升研究的标准,进一步控制“显著性”,人们也常常把p = 0.01作为拒绝零假设的标准值(即置信度为99%)。
在统计学中,p = 0.05这个标准被称为“置信度95%的显著性标准”,因此也常被写作Sig值= 0.05。
在统计分析中,不论是做回归分析还是判别分析,其实都是力图创建一个尽可能与测量数据很好地拟合的数据模型——创建并检验模型质量的过程就是建模。对于模型的质量,人们通常利用“模型值/误差值”(即效应值)来判定模型的有效程度,这一思路贯穿了统计分析的各个过程,只是在不同的模块中可能呈现为不同的具体形态。
例如,在两次抽样数据的差异显著性检验中,人们常常使用两个均值的差与其标准误(即SE)的比值来判定两个数据序列是否存在显著性差异。事实上,若两个序列的均值之差远大于标准误SE,则表示这两个序列之间的差距远远大于各个组的组内正常波动,即组间的差异值不是由组内正常波动而引起的,组间的差别应是由分组所导致的。这就是非常重要的T检验的核心思想。对应的公式如式1-1所示。注意,公式中的X a 和X b 分别表示两个序列的均值,SE则代表着抽样数据的标准误。
式1-1
在线性回归分析的处理中,通常需要根据已有的数据创建回归方程,即基于已有数据建构模型。在完成了建模后,根据模型计算出的数值称为回归值(即期望值),而原始数据(观测值)与回归值之间的差被称为残差,也可以称之为误差。回归值越接近对应的观测值越好。因此人们用“回归值的均方和”与“残差均方和”的比值(简称F值)来评价回归方程的质量。这个比值越大,表示回归方程的影响力越大,回归效果越好。在理想情况下,回归方程能够完全拟合测量值,则相应的“残差均方和”为0,导致F值为无穷大。评价线性回归质量的计算方法如式1-2所示。
式1-2
同理,判别分析也借助了与此相似的评价方式,通过残差与有效数据的比值来反映判别效果,这个比值(Wilks Lamda值,即威尔克斯λ值)越小,表示判定效果越有效。
本节为了阐述统计分析的一些基本思路而提及了较多的术语,对于这些术语,读者可暂时只是记忆,但不做深入理解,后续将进行详细的解读。