Stata是一种功能强大的统计分析软件,也是建模非常流行和常用的软件之一。Stata集数据录入、数据编辑、数据管理、统计分析、报表制作以及图形绘制为一体,自带多种类型、多个函数。Stata提供了从简单的统计描述到复杂的多因素统计分析方法,如数据的探索性分析、统计描述、交叉表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析、因子分析、聚类分析、非线性回归、Logistic回归等。Stata的功能非常强大,可针对整体的大型统计项目提供完善的解决方案。Stata升级到16.0版本以后,其统计分析功能变得更加完整、系统和全面。下面介绍常用的建模模块。
用户在对数据进行统计分析的时候,首先要对数据进行描述性统计分析,这样就可以对变量的分布特征以及内部结构获得一个直观的认识,进而决定采用哪种分析方法,更加深入地揭示变量的统计规律。
Stata 16.0中的汇总、表格和假设检验模块包括:摘要和描述性统计、频数表、其他表、古典假设检验、非参数假设检验、分布图和检验、多元均值、协方差和正态性检验。
在进行数据分析时,当研究者得到的数据量很小时,可以通过直接观察原始数据来获得所有的信息。但是当得到的数据量很大时,就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开描述的统计分析方法被称为描述性统计分析。数据分析中的大部分变量都是定距变量,通过进行定距变量的基本描述性统计,我们可以得到数据的概要统计指标,包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过获得这些指标,可以从整体上对拟分析的数据进行宏观把握,从而为后续进行更深入的数据分析做好必要的准备。
相关分析通过计算两个变量之间的相关系数,分析变量间线性相关的程度。在多元相关分析中,由于受到其他变量的影响,两个变量之间的相关系数只是从表面上反映了两个变量的性质,往往不能真实地反映变量间的线性相关程度,甚至会给人们造成相关的假象。因此,在某些场合中,简单的两个变量的相关系数并不是刻画相关关系的本质性统计量。
当其他变量被固定时,即将它们控制起来以后,给定的任意两个变量之间的相关系数叫偏相关系数。偏相关系数也称净相关分析,它是在控制其他变量的线性影响下分析两个变量间的线性相关,所采用的工具是偏相关系数。偏相关分析通过控制一些被认为次要变量的影响得到两个变量间的实际相关系数。
Stata 16.0的摘要和描述性统计模块如图2.1所示。
图2.1 摘要和描述性统计模块
·摘要统计。
·均值。
·比例。
·比率。
·总量。
·均值成对比较。
·置信区间。
·正态均值置信区间计算器。
·泊松均值置信区间计算器。
·比例置信区间计算器。
·方差置信区间计算器。
·标准偏差置信区间计算器。
·相关和协方差。
·成对相关。
·偏相关。
·组内相关。
·四分相关。
·算术/几何/调和均值。
·分类均值/中位数图。
·百分位与置信区间。
·创建百分位数变量。
·创建分位数变量。
频数表模块如图2.2所示。
图2.2 频数表模块
·单向表。
·双向表(关联性分析)。
·多个单向表。
·所有可能的双向表。
·表计算器。
参数检验(Parameter Test)是指对参数的平均值、方差、比率等特征进行的统计检验。参数检验一般假设统计总体的具体分布为已知,但是其中的一些参数或者取值范围不确定,分析的主要目的是估计这些未知参数的取值,或者对这些参数进行假设检验。参数检验不仅能够对总体的特征参数进行推断,还能够对两个或多个总体的参数进行比较。常用的参数检验包括单一样本T检验、独立样本T检验、配对样本T检验、单一样本方差和双样本方差的假设检验等。
Stata 16.0支持的古典假设检验模块如图2.3所示。
图2.3 古典假设检验模块
t检验包括单一样本T检验、独立样本T检验、配对样本T检验等。
单一样本T检验是假设检验中基本、常用的方法之一。与所有的假设检验一样,其依据的基本原理也是统计学中的“小概率反证法”。通过单一样本T检验,我们可以实现样本均值和总体均值的比较。检验的基本程序是首先提出原假设和备择假设,规定好检验的显著性水平,然后确定适当的检验统计量,并计算检验统计量的值,最后依据计算值和临界值的比较结果做出统计决策。
单一样本T检验过程相当于数理统计中的单个总体均值的假设检验,根据样本观测值检验抽样总体的均值与指定的常数之间的差异程度,即检验零假设
。设n为样本容量,
为样本均值,检验使用T统计量。在原假设成立的条件下,T统计量表达式为:
其中,
为标准差。我们检验的目的是推断样本所代表的未知总体的均值与已知总体的均值有无差异。
独立样本T检验用于检验两个独立样本是否来自具有相同均值的总体,相当于检验两个独立正态总体的均值是否相等,即检验
是否成立。
配对样本T检验用于检验两个相关的样本是否来自具有相同均值的正态总体,如果我们假设来自两个正态总体的配对样本为
,令
,相当于检验样本
是否来自均值为零的正态总体,即检验假设
。
·t检验计算器。
·Z检验(均值比较检验,已知方差)。
·Z检验计算器。
·基于均值比较的效应大小。
·效应大小计算器。
·二项式概率检验。
·二项式概率检验计算器。
·比例检验。
·比例检验计算器。
·方差齐性检验。
·方差齐性检验计算器。
·稳健方差齐性检验。
统计中的检验方法分为两大类:参数检验和非参数检验。参数检验需要预先假设总体的分布,在这个严格假设基础上才能推导各个统计量,从而对原假设(H 0 )进行检验。Stata软件中还提供了多种非参数检验方法:卡方检验、二项分布检验、单样本检验、两个独立样本检验、两个相关样本检验、K个独立样本检验、K个相关样本检验等。非参数检验方法不需要预先假设总体的分布特征,直接从样本计算所需要的统计量,进而对原假设进行检验。
常用的非参数检验包括卡方检验(Chi-Square Test)、二项检验(Binomial Test)、游程检验(Runs Test)、单样本Kolmogorov-Smirnov检验(One-Sample Kolmogorov-Smirnov Test)、两个或多个独立样本非参数检验(Two or More Independent Samples Nonparametric Tests)、两个或多个相关样本非参数检验(Two or More Related Samples Nonparametric Tests)等。
两个独立样本非参数检验(Two Independent Samples Test)又包括以下几种方法:Mann-Whitney U检验(Mann-Whitney U Test)、Moses极端反应检验(Moses Extreme Reactions Test)、Kolmogorov-Smirnov Z检验(Kolmogorov-Smirnov Z Test)、Wald-Wolfowitz游程检验(Wald-Wolfowitz Runs Test)。
多个独立样本非参数检验(Tests for Several Independent Samples)又包括以下几种方法:Kruskal-Wallis H检验(Kruskal-Wallis H Test)、中位数检验(Median Test)和Jonckheere-Terpstra检验(Jonckheere-Terpstra Test)。
两个相关样本非参数检验(Two Related Samples Tests)又包括以下几种方法:Wilcoxon符号秩检验(Wilcoxon Signed Ranks Test)、符号检验(Signed Test)、McNemar检验(McNemar Test)和边际同质性检验(Marginal Homogeneity Test)。
多个相关样本非参数检验(Test for Several Related Samples)又包括以下几种方法:Friedman检验(Friedman Test)、Kendall W检验(Kendall's W Test)和Cochran Q检验(Cochran's Q Test)等。
Stata 16.0支持的非参数假设检验模块如图2.4所示。
图2.4 非参数假设检验模块
·单样本Kolmogorov-Smirnov检验。
·双样本Kolmogorov-Smirnov检验。
·Kruskal-Wallis秩检验。
·Wicoxon配对符号秩检验。
·匹配对相等性检验。
·Wilcoxon秩和检验。
·K样本中位数检验。
·游程检验。
·有序组的趋势检验。
·Spearman秩相关。
·Kendall秩相关。
分布图和检验模块如图2.5所示。
·对称图。
·分位数图。
·正态分位数图。
·正态概率图,标准化。
·卡方分位数图。
·卡方概率图。
·分位数-分位数图。
·茎叶图。
·字母值表示变量。
·生成累积分布。
·偏度和峰度正态性检验。
·Shapiro-Wilk正态性检验。
·Shapiro-Francia正态性检验。
·幂阶梯。
·幂阶梯直方图。
·幂阶梯正态分位数图。
图2.5 分布图和检验模块
回归分析是分析变量间关系的一种重要方法,其研究的变量分为因变量与自变量,因变量是被解释变量,自变量也称为解释变量,通常是可以加以控制的变量。当回归分析主要研究变量间的线性关系时,称为线性回归分析,反之称为非线性回归分析。回归分析又可以按照影响因变量的自变量的个数分为一元线性回归和多元线性回归。在实际中,相关分析与回归分析经常一起使用,用来分析和研究变量之间的关系。
(1)线性回归(Linear Regression):线性回归分析是基于最小二乘法原理产生的古典假设下的统计分析方法,用来研究一个或多个自变量与一个因变量之间是否存在某种线性关系。如果引入回归分析的自变量只有一个,就是简单线性回归分析,如果引入回归分析的自变量有两个以上,就是多元线性回归分析。简单线性回归是多元线性回归的特例。
(2)曲线估算(Curve Estimation):曲线估算可以拟合许多常用的曲线关系,当变量之间存在可以使用这些曲线描述的关系时,我们便可以使用曲线回归分析进行拟合。许多情况下,变量之间的关系并非是线性关系,我们无法建立线性回归模型。但是许多模型可以通过变量转化为线性关系。统计学家发展出了曲线回归分析来拟合变量之间的关系。曲线估算的思想就是通过变量替换的方法将不满足线性关系的数据转化为符合线性回归模型的数据,再利用线性回归进行估计。
Stata 16.0的曲线估算过程提供了线性曲线、二次项曲线、复合曲线、增长曲线、对数曲线、立方曲线、S曲线、指数曲线、逆模型、幂函数模型、Logistic模型等十几种曲线回归模型。同时,Stata允许用户同时引入多个非线性模型,最后结合分析的结果选择相关的模型。
(3)二元Logistic回归(Binary Logistic Regression):二元Logistic回归(或者说二元Logistic回归模型)就是为二分类的因变量(比如因变量只能取“是”或者“不是”、“有”或者“没有”)作一个回归方程出来,概率的取值为0~1,而一般线性回归方程的因变量取值在实数集中,这样概率的取值就会出现0~1范围之外的不可能结果,因此对概率做一个Logit变换,其取值区间就变成整个实数集,不会出现上述不可能结果。
(4)多元Logistic回归(Multinomial Logistic Regression):多元Logistic回归常用于因变量为多分变量时的回归拟合。在许多领域的分析中都会遇到因变量只能取多个单值的情形,如客户满意程度为非常满意、一般满意、不太满意、非常不满意等。对于这种问题建立回归模型,与二元Logistic回归的基本思想类似,通常先将取值在实数范围内的值通过Logit变换转化为目标概率值,然后进行回归分析,当因变量不止有两种取值的情况时,就是多元Logistic回归。多元Logistic回归参数的估计通常采用最大似然法,最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大来求解相应的参数值,所得到的估计值称为参数的最大似然估计值。
(5)非线性回归(Nonlinear Regression):非线性回归分析是寻求因变量与一组自变量之间的非线性回归模型的统计方法。线性回归限制模型估计必须是线性的,非线性回归可以估计因变量与自变量之间具有任意关系的模型。在非线性回归分析中,参数的估计是通过迭代的方法获得的。例如,某种病毒繁殖的数量随时间的变化表现为非线性的关系,便可以借助非线性回归分析寻求一个特殊的估计模型(如根据经验选择三次幂曲线模型或指数模型等)估计它们的关系,进而利用它进行分析和预测。建立非线性模型时,仅当指定一个描述变量关系的准确函数时结果才有效,在迭代中选定一个好的初始值也是非常重要的,初始值选择得不合适可能导致迭代发散(经过多次迭代迟迟不能收敛),或者可能得到一个局部的最优解而不是整体的最优解。对许多呈现非线性关系的模型,如果可以转化成线性模型,应尽量选择线性回归进行分析,如果不能确定一个恰当的模型,可以借助散点图直观地观察变量的变化,这将有助于确定一个恰当的函数关系。
(6)二阶最小二乘回归:普通最小二乘法有着非常严格近乎苛刻的假设条件,但是在实际中往往很多数据并不能满足这些假设条件。其中一个基本假设是自变量取值不受因变量的影响,或者说数据不存在内生自变量问题。然而,在很多研究中都不同程度地存在内生自变量问题,如果在存在内生自变量问题的条件下继续采用普通最小二乘法,就会严重影响回归参数的估计,使得回归模型失真甚至失效。Stata 16.0回归分析模块的二阶最小二乘回归分析便是为了解决这一问题而设计的。其基本思路是,首先找出内生自变量,然后根据预分析结果找出可以预测该自变量取值的回归方程并得到自变量预测值,再将因变量对该自变量的预测值进行回归,以一种更加迂回的方式解决内生自变量问题。
(7)权重估算:异方差性会导致参数估计量非有效、变量的显著性检验失去意义、模型的预测失效等后果。模型存在异方差性则可用加权最小二乘法(WLS)进行估计,加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数。
(8)概率回归:概率单位(Probability Unit,Probit)回归分析适用于对响应比例与刺激作用之间的关系的分析。与Logistic回归一样,Probit回归同样要求将取值在实数范围内的值通过累计概率函数变换转化为目标概率值,然后进行回归分析。常见的累积概率分布函数有Logit概率函数和标准正态累积概率函数。
(9)有序回归:如果因变量是有序的分类变量,那么需要使用有序回归分析方法,也被称为Ordinal回归。在实际生活中,很多情况下我们会遇到有序因变量的情况,如成绩的等级为优、良、中、差;在银行信贷资产的分类中,按照监管部门的规定要求将贷款的违约情况划分为正常、关注、次级、可疑、损失等。我们也会遇到很多取值多元的案例,比如在客户满意度调查中调查客户对于本公司服务的满意程度,有很满意、基本满意、不太满意、很不满意等;再比如在债券发行市场对债券发行主体进行信用评级,评级为AAA、AA、A、BBB、„„、D等。有序因变量和离散因变量不同,在这些离散值之间存在着内在的等级关系。如果直接使用OLS估计法,将会因失去因变量序数方面的信息而导致估计的偏差。因此,需要使用有序回归分析方法进行估计。在Stata中,我们可以非常方便地实现有序回归分析的操作。
(10)最优尺度回归:我们经常会遇到自变量为分类变量的情况,如收入级别、学历等,通常的做法是直接将各个类别定义取值为等距连续整数,如将收入级别的高、中、低分别定义为1、2、3,但是这意味着这三档之间的差距是相等的,或者说它们对因变量的数值影响程度是均匀的。显然这种假设有些草率,基于此分析有时会得出很不合理的结论。Stata的最优尺度回归便应运而生,成为解决这个问题的分析方法。
Stata的线性模型及相关模块如图2.6所示。
·线性回归。
·回归诊断:包括模型检定、添加变量图、分量和残差图、增强的分量和残差图、杠杆对残差平方图、残差对拟合值图、残差对预测值图、DFBETA等,如图2.7所示。
·ANOVA/MANOVA:包括方差和协方差分析、ANOVA后的线性假设检验、ANOVA后的设定检验、单因素方差分析、单因素方差分析(多水平)、多元方差分析、MANOVA后的多元检验、MANOVA后的Wald检验等,如图2.8所示。
图2.6 线性模型及相关模块
图2.7 回归诊断模块
图2.8 ANOVA/MANOVA模块
·约束线性回归。
·非线性最小二乘估计。
·非参数回归:包括核回归、级数回归等。
·删失回归:包括Tobit回归、区间回归、含内生协变量的Tobit模型、含内生协变量的区间回归、多层Tobit回归、多层次区间回归、贝叶斯回归等,如图2.9所示。
·截尾回归。
·跨栏回归。
·异方差线性回归。
·内生协变量。
·样本选择模型:包括Heckman选择模型、含样本选择的区间回归、含内生协变量和处理的模型、贝叶斯Heckman选择模型等,如图2.10所示。
图2.9 删失回归模块
图2.10 样本选择模型模块
·Box-Cox回归。
·分数多项式:包括分数多项式回归、分量和残差图、分数多项式预测、创建分数多项式变量、多元分数多项式模型、多元分数多项式回归图、多元分数多项回归预测等,如图2.11所示。
·分位数回归:包括分位数回归、四分位数间距回归、同时分位数回归、分位数回归(自助法)等,如图2.12所示。
图2.11 分数多项式模块
图2.12 分位数回归模块
·含测量误差的回归。
·随机前沿模型。
·面板数据:包括线性回归(FE、RE、PA、BE),随机效应的拉格朗日乘子检验,带AR(1)干扰项的线性回归(FE、RE),随机系数广义最小二乘回归,样本选择模型(RE),动态面板数据(DPD),删失结果,含内生协变量、样本选择和处理的模型,同期相关,随机前沿模型,如图2.13所示。
·混合效应线性回归。
·混合效应非线性回归。
·空间自回归模型。
·联立方程模型:包括多元回归、看似不相关回归、三阶段最小二乘法、非线性看似不相关回归、贝叶斯多元回归等,如图2.14所示。
图2.13 面板数据模块
图2.14 建立方程模型模块
·处理效应:包括回归调整,逆概率加权(IPW),带逆概率加权的回归调整,增强的逆概率加权,倾向得分匹配,近邻匹配,含内生协变量和样本选择的模型,内生处理、极大似然估计,内生处理、控制函数等,如图2.15所示。
图2.15 处理效应模块
·有限混合模型(FMM):包括线性回归、Tobit回归、区间回归、截尾回归等,如图2.16所示。
图2.16 有限混合模型(FMM)模块
·Lasso推论模型:包括双重筛选模型、去控制因子模型、交叉拟合去控制因子模型、去控制因子工具变量模型、交叉拟合去控制因子工具变量模型,如图2.17所示。
图2.17 Lasso推论模型模块
·贝叶斯回归。
·其他。
我们经常会遇到因变量只有两种取值的情况,例如是否患病、是否下雨等,这时一般的线性回归分析将无法准确地刻画变量之间的因果关系,需要用其他的回归分析方法来拟合模型。Stata的二元结果模块便是一种简便的处理二分类因变量问题的分析方法。
Stata 16.0的二元结果模块如图2.18所示。
图2.18 二元结果模块
·Logistic回归。
二元Logistic回归的一般模型如下:
其中,z=b 0 +b 1 x 1 +b 2 x 2 +…+b p x p (p为自变量的个数)。某一事件不发生的概率为Prob(no event)=1-Prob(event)。Logistic回归模型的估计使用的是极大似然法和迭代方法。所谓二元Logistic模型,或者说二元Logistic回归模型,就是人们想为两个分类的因变量作一个回归方程出来,不过概率的取值为0~1,而回归方程的因变量取值在实数集中,这样概率的取值就会出现0~1范围之外的不可能结果,因此对概率做一个Logit变换,其取值区间就变成了整个实数集。
·Probit回归。
·互补重对数回归。
·条件Logistic回归。
·精确Logistic回归。
·偏斜Logistic回归。
·含内生协变量的Probit模型。
·含样本选择的Probit模型。
·异方差Probit回归。
·含内生协变量、样本选择和处理的Probit模型。
·二项式族广义线性模型。
·二元Probit回归。
·看似不相关二元Probit回归。
·面板回归。
·多层混合效应回归。
·有限混合模型(FMM)。
·非参数回归。
·处理效应。
·Lasso推论模型。
·贝叶斯回归。
·后验估计。
Stata 16.0的序数结果模块如图2.19所示。
图2.19 序数结果模块
·有序Logistic回归。
·有序Probit回归。
·含内生协变量的有序Probit回归。
·含样本选择的有序Probit模型。
·异方差有序Probit回归。
·含内生协变量、样本选择和处理的有序Probit模型。
·秩序Logistic回归。
·秩序Probit回归。
·面板有序Logistic回归。
·面板有序Probit回归。
·含内生协变量、样本选择和处理的面板有序Probit回归。
·多层有序Logistic回归。
·多层有序Probit回归。
·含样本选择的有序Probit回归。
·零膨胀有序Probit回归。
·有限混合有序Logistic回归模型。
·有限混合有序Probit回归模型。
·贝叶斯回归。
在许多领域的分析中,我们都会遇到因变量只能取多个单值的情形,如教师职称、医师级别等。Stata 16.0的分类结果模块用于因变量为多分变量时的回归拟合。
Stata 16.0的分类结果模块如图2.20所示。
图2.20 分类结果模块
·多项Logistic回归。
多项Logistic回归的数学表达如下:
其中,P为事件发生的概率,
为模型的截距项,
为待估计参数,
为解释变量,
为误差项。通过公式可以看出,多项Logistic回归建立了事件发生的概率和解释变量之间的关系。
·多项Probit回归。
·McFadden条件Logit选择模型。
·多项Probit选择模型。
·混合Logit选择模型。
·面板数据混合Logit选择模型。
·嵌套Logit回归。
·嵌套Logit回归的设定。
·显示嵌套Logit树结构。
·Stereotype Logistic回归模型。
·有限混合多项Logistic回归模型。
·贝叶斯多项Logistic回归。
·贝叶斯多项Probit回归。
Stata 16.0的多元分析模块如图2.21所示。
图2.21 多元分析模块
·多元方差分析、多元回归及相关。
·聚类分析。
·判别分析。
·因子和主成分分析。
·多维标度法(MDS)。
·对应分析。
·双标图。
·Procrustes变换。
·Procrustes叠加图。
·Cronbach's alpha系数。
·矩阵的正交和斜交旋转。
·后验估计报告和统计量。
聚类分析也称群分析,它是研究样本观测值(或指标、变量)分类问题的一种多元统计分析方法。聚类分析用于解决事先不知道应将样本观测值或指标、变量分为几类,需要根据样本观测值或指标、变量的相似程度进行归组合并同类。在实际问题中存在大量的分类问题,随着生产力和科学技术的发展,分类不断细化,以往仅凭经验和专业知识进行定性分类的方法已经不能满足实际的需要,也不能做出准确的分类,必须将定性和定量分析结合起来进行分类。例如,在市场营销中,根据客户行为特征对划分为不同类别的客户群进行针对性的营销;在连锁酒店管理中,根据酒店的销售收入、客户群体、员工人数划分为不同等级,分为旗舰店、一般店、迷你店等;在社会经济领域中,根据各地区的经济指标进行分类,对各地经济发展状况做出综合评价等。聚类分析作为分类的数学工具越来越受到人们的重视,在许多领域都得到广泛应用。
Stata聚类分析模块包括聚类数据、聚类相异度矩阵、聚类分析后三个子模块,如图2.22所示。而聚类数据子模块又包括:
·K均值法。
·K中位数法。
·最短距离法。
·类平均法。
·最长距离法。
·加权类平均法。
·中间距离法。
·重心聚类法。
·离差平方和法。
图2.22 聚类数据子模块
聚类相异度矩阵子模块又包括(见图2.23):
·最短距离法。
·类平均法。
·最长距离法。
·加权类平均法。
·中间距离法。
·重心聚类法。
·离差平方和法。
图2.23 聚类相异度矩阵子模块
聚类分析后子模块又包括(见图2.24):
·树状图。
·聚类分析停止准则。
·生成聚类分析分组变量。
·显示聚类分析注释。
·聚类详细信息列表。
·删除聚类分析。
·聚类或聚类变量重命名。
图2.24 聚类分析后子模块
判别分析是一种处理分类问题的统计方法。在生产活动、经济管理、科学实验甚至日常生活中,人们常常需要判定所研究的现象或事物的归属问题。例如,兽医对动物病情进行诊断时,需要根据观察到的病症(如体温、血常规等)判断动物患了哪种病;在市场调研中,根据一个国家或地区的若干经济指标判断该国家或地区经济发展的程度和状态;在市场预测中,根据某厂反映产品销售状况的若干指标判断该厂的产品销量属于开发期、发展期还是饱和期;在地质勘查中,根据采集的矿石样品判断勘测地是否有矿,贫矿还是富矿。与聚类分析不同,判别分析是在分组已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计方法。判别分析首先需要对研究的对象进行分类,然后选择若干对观测对象能够较全面地描述的变量,接着按照一定的判别标准建立一个或多个判别函数,用研究对象的大量资料确定判别函数中的待定系数,以计算判别指标。
Stata判别分析模块如图2.25所示。
·线性判别分析(LDA)。
·二次判别分析(QDA)。
·Logistic判别分析。
·K近邻法(KNN)。
·典型线性判别分析。
图2.25 判别分析模块
人们在对现象进行观测时,往往会得到大量指标(变量)的观测数据,这些数据在带来现象有关信息的同时,也给数据的分析带来了一定困难;另一方面,这众多的变量之间可能存在着相关性,实际观测到的数据包含的信息有一部分可能是重复的。因子分析和主成分分析就是在尽可能不损失信息或者少损失信息的情况下,将多个变量减少为少数几个潜在的因子或主成分,这几个因子或主成分可以高度地概括大量数据中的信息,这样既减少了变量的个数,又能再现变量之间的内在联系。例如,做衣服需要掌握人身体各部位的尺寸或指标(衣长、裤长、脚围、臀围、臂长等),这些指标因人而异,都是一些随机变量,但这些随机变量之间又存在明显的联系,服装厂批量生产服装时,不可能真正做到“量体裁衣”,他们需要从这些指标中概括出少数几个关键性指标,然后根据这些指标进行加工,这样生产出来的服装就能适合大多数人的体型。而少数几个指标虽然不能反映人的体型的全部信息,但却高度地概括和集中了其中绝大部分的信息。又如,在进行多元回归时,可能因为自变量之间存在多重共线性,而使得建立的回归模型并不能很好地刻画因变量与自变量之间的关系,根据因子分析和主成分分析的思想,事先通过因子分析或主成分分析从具有共线性的多个变量中筛选出少数几个变量,它们概括了原始变量观测值中绝大部分的信息,使用这些变量建立的回归方程能够再现原始变量之间的关系。
Stata因子和主成分分析模块如图2.26所示。
·因子分析。
·相关矩阵的因子分析。
·主成分分析(PCA)。
·相关或协方差矩阵的主成分分析。
·后验估计:包括载荷旋转、载荷图、得分图、碎石图。
图2.26 因子和主成分分析模块
信度分析是指测验的可信程度,它主要表现测验结果的一贯性、一致性、再现性和稳定性。一个好的测量工具,对同一事物反复多次测量时,其结果应该始终保持不变才可信。比如,我们用同一把尺子测量一批物品,如果今天测量的结果与明天测量的结果不同,我们就会对这把尺子的可信性产生怀疑。可靠性分析是检验测量工作可靠性和稳定性的主要方法,一般在心理学中应用得较多,另外在学生考试试卷、社会问卷调查的有效性分析中也会涉及。信度只受随机误差影响,随机误差越大,测验的信度就越低。
在Stata中,信度分析通过Cronbach's alpha系数来实现。
多维标度分析尝试寻找对象或个案间一组距离测量的结构。该任务是通过将观察值分配到概念空间(通常为二维或三维)中的特定位置实现的,这样使空间中的点之间的距离尽可能与给定的非相似性相匹配。在很多情况下,这个概念空间的维度可以解释并可以用来进一步进行数据分析。多维标度分析是市场调查、分析数据的统计方法之一,通过多维标度分析可以将消费者对商品相似性的判断生成一张能够看出这些商品间相关性的图形。例如,有若干个百货商场,让消费者排列出这些百货商场两两间的相似程度,根据这些数据,使用多维标度分析,可以判断消费者认为哪些商场是相似的,从而可以判断竞争对手。
在Stata中,多维标度分析通过多维标度法(MDS)来实现。
时间序列是指依时间顺序取得的观察资料的集合。在一个时间序列中,离散样本序列可以按相等时间间隔或不相等时间间隔获取,更多的是采用前者来实现。时间序列的特点是数据资料的先后顺序不能随意地改变,逐次的观测值通常是不独立的,而且分析时必须考虑观测资料的时间顺序。
Stata时间序列模块如图2.27所示。
图2.27 时间序列模块
·模型设定和实用工具。
模型设定和实用工具子模块如图2.28所示。
图2.28 模型设定和实用工具子模块
·ARIMA模型和ARMAX模型。
·ARCH/GARCH。
ARCH/GARCH子模块如图2.29所示。
图2.29 ARCH/GARCH
·ARFIMA模型。
·不可观测成分模型。
·马尔科夫转换模型。
·门限回归模型。
·Prais-Winsten回归。
·含Newey-West标准差的回归。
·状态空间模型。
·预测。
·后验估计。
·滚动窗口和递归估计。
·平滑法/单变量预测。
·平滑法/单变量预测子模块如图2.30所示。
图2.30 平滑法/单变量预测子模块
·周期成分滤波器。
·检验。
检验子模块如图2.31所示。
图2.31 检验子模块
对于一个时间序列数据而言,数据的平稳性对于模型的构建是非常重要的。如果时间序列数据是不平稳的,可能会导致自回归系数的估计值向左偏向于0,使传统的T检验失效,也有可能会使得两个相互独立的变量出现假相关关系或者回归关系,造成模型结果失真。在时间序列数据不平稳的情况下,目前公认的能够有效解决假相关或者假回归,构建出合理模型的方法有两种:一种是先对变量进行差分直到数据平稳,再把得到的数据进行回归;另一种是进行协整检验并构建合理模型。那么如何判断数据是否平稳呢?绘制时间序列图的方法可以作为初步推测或者辅助检验的一种方式。另一种更精确的检验方式是:如果数据没有单位根,我们就认为它是平稳的,这时就需要用到单位根检验。单位根检验包括ADF单位根检验、DF-GLS单位根检验、Phillips-Perron单位根检验等。
·图形。
图形子模块如图2.32所示。
图2.32 图形子模块
对于时间序列{x t },其k阶自相关系数被定义为:
其中,μ≡E(x t )。自相关系数刻画了序列邻近数据之间存在多大程度的相关性。对于平稳时间序列而言,ρ k 和时间无关,仅仅是滞后阶数k的函数。
然而,x t 与x t+k 的相关可能由其之间的{x t+1 ,…,x t+k-1 }引起,而并非二者真正相关。为了控制中间变量的影响,我们引入了k阶偏自相关系数。其定义为:在给定中间变量的条件下,x t 与x t+k 的偏自相关系数如下:
多元时间序列模块如图2.33所示。
图2.33 多元时间序列模块
·模型设定和实用工具。
模型设定和实用工具子模块包括以下选项:
·向量自回归(VAR)。
向量自回归(Vector Auto Regression,VAR)模型是指把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数来构造模型。
对于一个k变量的VAR(p)系统,模型可写为:
其中,
,{ε
1t
}…{ε
kt
}都是白噪声过程,且E(ε
it
ε
js
)=0,∀i,j,t≠s,但扰动项之间允许存在同期相关性。
此外,我们还可以在模型中加入外生变量x t ,并将模型写为:
y t =A 0 +A 1 y t-1 +…+A p y t-p +Bx t +ε t
·简单VAR模型。
·结构向量自回归(SVAR)。
·矢量误差校正模型(VECM)。
·矢量误差校正模型的协整秩。
·动态因子模型。
·多元GARCH模型。
·状态空间模型。
·动态随机一般均衡(DSGE)模型。
·VAR模型诊断和检验。
·VAR模型诊断和检验子模块如图2.34所示。
图2.34 VAR模型诊断和检验子模块
·VEC模型诊断和检验。
VEC模型诊断和检验子模块如图2.35所示。
图2.35 VEC模型诊断和检验子模块
·VEC/VAR模型预测。
·脉冲响应和方差分解分析。
脉冲响应和方差分解分析子模块如图2.36所示。
图2.36 脉冲响应和方差分解分析子模块
·管理脉冲响应结果和文件。
管理脉冲响应结果和文件子模块如图2.37所示。
图2.37 管理脉冲响应结果和文件
·预测。
纵向/面板数据模块如图2.38所示。
图2.38 纵向/面板数据模块
·模型设定和实用工具。
模型设定和实用工具子模块包括以下选项:
·线性模型。
·随机系数广义最小二乘回归。
·二元结果。
二元结果子模块如图2.39所示。
图2.39 二元结果子模块
·序数结果。
序数结果子模块如图2.40所示。
图2.40 序数结果子模块
·计数结果。
·删失结果。
·生存模型。
·广义估计方差(GEE)。
·动态面板数据(DPD)。
·内生协变量。
·样本选择模型。
·内生处理。
·同期相关。
·随机前沿模型。
·协整数据。
·单位根检验。
·折线图。
生存分析就是处理、分析生存数据。常见的生存分析方法包括寿命表(Life Tables)、Kaplan-Meier法、Cox回归(Cox Regression)和含依时协变量的Cox回归(Time-Dependent Cox Regression)等。
在很多情形下,用户可能会研究两个事件之间的时间分布,比如住院时长(病人从进入医院到离开医院的时间)。但是,这类数据通常包含没有记录其第二次事件的个案(例如,在调查结束后仍然留在医院的病人)。出现这种情况有多种原因:对于某些个案,事件在研究结束前没有发生;而对于另一些个案,在研究结束前的某段时间未能跟踪其状态;还有一些个案,可能因一些与研究无关的原因无法继续。这些个案总称为已审查的个案,它们使得此类研究不适合t检验或线性回归等传统方法。用于此类数据的统计方法称为寿命表。寿命表的基本思路是将整个观测时间划分为很多小的时间段,对于每个时间段,计算所有活到某时间段起点的病例在该时间段内死亡(出现结局)的概率,然后使用从每个时间段估计的概率估计在不同时间点发生该事件的整体概率。
Kaplan-Meier法是已审查的个案出现时估计时间事件模型的一种方法。Kaplan-Meier法用于样本含量较小并且不能给出特定时间点的生存率的情况,因此不用担心每个时间段内只有很少的几个观测值的情况。将生存时间由小到大依次排列,在每个死亡点上计算其最初人数、死亡人数、死亡概率、生存概率和生存率。前面介绍的寿命表方法是将生命时间分成许多小的时间段,计算该段内生存率的变化情况,分析的重点是研究总体的生存规律,而Kaplan-Meier法则是计算每个“结果”事件发生时点的生存率,分析的重点除了研究总体生存规律外,往往更加热心于寻找相关影响因素。Kaplan-Meier法使用的检验方法包括Log Rank法、Breslow法、Tarone-Ware法等。
Cox回归为时间事件数据建立预测模块。该模块生成生存函数,用于为预测变量的给定值预测被观察事件在给定时间内发生的概率。从观察主体中估计预测的生存函数的形状与回归系数。该方法可应用于具有预测变量测量的新个案。需要注意的是,在构建模型的过程中,已检查主体中的信息(未在观察时间内经历被观察事件的信息)对于模型估计起了很大作用。
在很多情形下,用户可能想要计算“Cox回归”模型,但并不符合比例风险假设。也就是说,风险比率随时间变化,在不同的时间点一个(或多个)协变量的值会有所不同。在这种情况下,用户需要使用扩展的“Cox回归”模型,也就是含依时协变量的Cox回归分析,该模型允许用户指定依时协变量。需要注意的是,要想分析这样的模型,用户必须首先定义依时协变量。用户使用命令语法可以指定多个依时协变量,使用表示时间的系统变量可以简化此过程。
Stata 16.0的生存分析模块如图2.41所示。
图2.41 生存分析模块
·模型设定和实用工具。
模型设定和实用工具子模块包括以下选项:
·回归模型。
回归模型子模块如图2.42所示。
图2.42 回归模型子模块
·摘要统计、检验和表格。
摘要统计、检验和表格子模块如图2.43所示。
图2.43 摘要统计、检验和表格子模块
·图形。
图形子模块如图2.44所示。
图2.44 图形子模块
·处理效应。
处理效应子模块如图2.45所示。
图2.45 处理效应子模块
·效能和样品含量。
贝叶斯分析模块如图2.46所示。
图2.46 贝叶斯分析模块
·回归模型。
回归模型子模块包括以下选项:
·一般估计和回归。
·图形汇总。
·Gelman-Rubin收敛诊断。
·有效样本量。
·摘要统计。
·信息准则。
·模型后验概率的假设检验。
·区间假设检验。
·预测。
·后验预测P值。
本书的写作重点放在如何使用Stata开展工作实践建模上,定位是教会用户使用Stata软件来建模解决实际问题,并真正用于工作实践或者提高工作质量,而非介绍Stata各分析模块的具体操作,所以关于Stata建模分析各模块更为详细的介绍和具体操作细节就不一一展开了。用户可参阅Stata类似教材或Stata帮助文档和资料进行学习。在接下来的章节中,将结合案例的形式介绍如何使用Stata软件建模来解决实际问题。需要特别说明的是,Stata中有很多分析方法在实际工作中可能使用频率非常低,比如非参数检验、生存分析等,同时又有很多分析方法在实际工作中可能使用频率非常高,比如回归分析、方差分析、描述性分析、相关分析、信度分析、聚类分析、因子分析等。所以基于以实践为导向、从实战出发的考虑,我们在后续的案例中将不会以介绍数据挖掘分析方法为导向,而是以切实解决问题为导向,针对所需解决的问题选择恰当的数据挖掘分析方法。虽然作者尽力使用不同的建模方法解决具体商业应用问题,但不可避免地会造成个别分析方法在案例中被多次应用,同时会出现有的分析方法没有被应用的情况,需要读者注意。