开展统计分析时,首先需要收集数据,然后对数据进行整理,运用统计方法分析研究对象的数量特征和变动规律,最终提炼出结论。
收集数据是开展统计分析的第一步。在明确研究目标、研究对象和研究范围后,研究者需要判断所需数据的类型,以便选用适宜的数据收集方式。
首先,研究者需要判断数据是宏观数据还是微观数据。宏观数据通常是基于行政区域层面的,例如国家、省/直辖市/自治区、市、县(区)等层面的数据,这类数据是行政区域内所有微观数据的汇总。例如广州市高校在校生人数,是广州市所有高校的在校生人数的总和;再如深圳市南山区本地生产总值,是深圳市南山区所有经济活动单位生产总值的总和。宏观数据通常由政府部门、官方机构发布。
微观数据的观测单元是个体,例如个人、企业,反映的是个体层面的信息。微观数据通常通过数据库、调查问卷、观测或实验的方法收集。例如CSMAR(China Stock Market & Accounting Research)数据库中的上市公司的数据,中国家庭追踪调查(China Family Panel Studies,CFPS)中家庭成员、家庭、社区的数据都是微观数据。
其次,研究者要确定数据是截面数据(Cross Sectional Data)还是时间序列数据(Time Series Data)。若研究关注观测单元在个体上的差异,那么需要收集截面数据;若研究关注观测单元的动态变化,则需要收集时间序列数据。若要同时研究观测单元的个体差异和动态变化,则需要收集面板数据(Panel Data)。
最后,研究者还要确定数据是定性数据(Qualitative Data)还是定量数据(Quantitative Data)。定性数据反映的是研究对象属性方面的特征,这类属性是无法量化的,例如性别、地区、行业、学历等,通常以文本的形式表示。定性数据可以细分为称名数据(Nominal Data)和顺序数据(Ordinal Data)。称名数据反映的属性是并列的,例如性别,男、女是并列的分类。顺序数据反映的属性是可以排序的,例如学历、满意度,可以按一定顺序排列。定量数据反映的是研究对象可以量化的特征,例如年龄、身高、体重等,通常以数字的形式表示。定量数据包含的信息最丰富,可以进行的统计运算也最多,其次是顺序数据,称名数据包含的信息最少,能进行的统计运算也最少。
统计分析的第二步是整理数据。首先,将数据转化为结构化表格的格式,其中每一行代表一个观测单元,每一列代表一个变量,这是大多数统计软件能够识别的格式。随后需检查数据的完整性和合理性,包括查看是否存在重复值、缺失值、异常值,以及将文本转化为数值代码。这一步通常也称为数据清洗。1.4节将介绍Excel中的数据清洗方法。
统计分析的第三步是分析数据。在这一步要根据研究目的、数据类型选择恰当的统计分析方法。统计分析方法分为描述统计分析和推断统计分析两类。描述统计分析是指对零散数据进行概括,包括利用表格和图形对数据进行呈现,计算均值、中位数、标准差等描述性统计量。本书第2~5章将介绍描述统计分析方法。推断统计分析是指根据样本数据对总体特征进行推断,本书第9~15章将介绍推断统计分析方法。第16章将介绍时间序列分析方法。
统计分析的第四步是提炼结论。在这一步要对运用统计分析方法得到的数据进行梳理和归纳,从中提炼出有价值的结论。这些结论能够概括数据的内在规律,以及变量之间的关系,进一步体现统计分析的价值。