金融统计实验分析最新章节_郭文旌著

3.3 金融数据处理与统计分析基础

金融统计分析研究问题基于金融学的基本原理，直接的处理对象是金融数据。小规模分析研究所使用的金融数据是局部的，数据可能来自国家的数据公布系统，如政府的统计部门或有关的金融部门的内部统计机构。这些数据的类型、存在格式可能不符合研究所用数据的基本要求，需要研究者进行加工和处理，在数据处理过程中，最主要的工具是金融统计分析方法和相关软件。本节介绍金融统计基础性分析方法，数据处理和显示使用的工具是微软Excel软件。

3.3.1 金融基础数据的处理与显示

金融分析研究中的基础数据处理过程从数据文件建立开始，之后对数据进行初步分析，绘制基本统计图表、生成统计报表等数据显示的基本内容。

1.统计整理

研究分析的数据收集、调查阶段所取得的原始资料是零散的、非规范化的、不完整的，需要依照研究目标进行科学的分类、汇总，使数据达到系统化、规范化，进而可以从数据中得出研究对象的必要信息，如基础特征、规律和趋势等，这一过程就是统计整理的过程，是对基础数据处理的初级阶段。统计整理的结果一般是数据库表格，或者是统计表，在此基础上绘制统计图形。

统计表（statistical table）是由纵横交叉的线条形成的表格，用以显示统计数据资料。统计表的基本内容包括总标题、横栏标题、纵栏标题、主词和宾语等。总标题用于概括统计表中全部资料的内容，是表的名称；数字资料是各组、各汇总项目的数值；主词是说明总体的，它可以是各个总体单位的名称、总体各个分组名称，形式上表现为横栏标题；宾语是说明总体的指标名称和数值的，形式上表现为纵栏标题和指标数值。图3-4显示了统计表基本要素的构成状况。

图3-4 统计表的基本要素

按照主词的加工方法不同，统计表可以分为简单表、分组表和复杂表。简单表的主词多以时间顺序排列，也可以按照总体单位名称排列。分组表的主词是按照某一标志进行分组的，它可以提示不同类型线性现象的特征，说明现象内部结构，分析现象之间的关系。复合表中的主词按照两个或两个以上的标志进行复合组合，能够更为深刻、更为详细地反映客观现象。

2.建立数据文件

建立基础数据文件，并不断积累数据，可以为后续分析研究奠定数据分析的基础。比如，我们要分析2007年6月到2009年12月的金融机构贷款余额变动数据，首先要建立一个数据文件。用微软Excel软件新建一个文件，定名为loan.xls。基础数据获取渠道是中国人民银行网站。登录www.pbc.gov.cn，在主页上找到“统计数据”一栏，点击“2007年统计数据”，在列表中点击“金融机构人民币信贷收支表”，在表格中找到“各项贷款”一行，对应找到6月份到2月份的数据。以此类推，找出2008年1—12月份、2009年1—12月份的各项贷款数据。中国人民银行统计的原始数据采用“横排”格式，在Excel文件中，可以转化为“竖排”格式。

取得金融机构的贷款数据后，需要进行初步的分析，比如，贷款增长速度变化哪个月份比较快。增长速度又分为“环比增长”和“同比增长”。环比增长速度是观察期与上一观察期比较的增长速度；同比增长是观察期与上一年度同一观察期比较的增长速度。在所收集的金融机构贷款数据中，环比增长是本月与上月比较，从2007年7月份开始可以测算，同比增长速度是本月与上年同月比较，从2008年6月份开始可以测算。如果要计算从2006年6月份开始的金融机构贷款增长速度，表中的基础数据还需要增加2006年6月到2007年5月的数据。

数据存储的格式要统一，比如数据的小数点位置、经济单位名称。金融机构贷款余额的单位为“亿元人民币”，小数点后保留两位数。表3-2是本例中建立的一个基本数据文件。

表3-2 2007年6月至2009年12月中国金融机构贷款余额变化

（续表）

3.绘制基本统计图形

将统计数据用图形方式表示出来，可以直观显示数据的变化趋势。一般统计图形包括条形图、线型图、面积图、饼图、高低点图、帕雷托图、控制图、盒形图、误差条图、散点图、直方图、PP图、QQ图等。下面采用条形图、线型图表示2007年6月至2009年12月中国金融机构贷款规模、增长速度的变化趋势，如图3-5所示。

图3-5 2007年6月至2009年12月中国金融机构贷款余额变化

从图3-5中可以看出金融机构贷款余额总量的绝对值变化情况。贷款规模从2007年6月的25万亿元，增加到2009年12月的40万亿元。但是，月度增长情况无法从图中直观体现，而线形图在反映相对指标变化方面具有优势，如图3-6所示。

图3-6 2007年6月至2009年12月中国金融机构贷款增长速度

从金融机构贷款余额的增长速度变化分析，2007年6月到2008年11月之间，贷款同比增长速度在15%左右徘徊，2008年2—11月增长速度低于15%。这段时间受紧缩型货币政策的影响，金融机构放贷能力受到抑制。2008年10月开始，为应对国际金融危机的冲击，货币政策取向开始转向适度宽松型，尤其进入2009年6月以后，贷款增长速度超过了30%。环比增长速度起伏比较大的时间段是2008年11月到2009年7月，充分反映出货币政策的影响和一年当中贷款增长前高后低的特点。

3.3.2 金融数据的描述性统计分析

金融数据的基础统计分析最主要的是描述性统计分析，包括集中趋势、离中趋势和频率分布及特征测量。

1.集中趋势的测量

（1）算术平均数

算术平均数（arithmetic average）是总体各单位某一数量标志的平均数。一定观察期内预测目标的时间数列的算术平均数可以作为下期的预测值，这是一种最简单的时序预测法。算术平均数的计算公式为

其-中，X为算术平均数；x _i 为各单位标志值（变量值）；n为总体单位数（项数）。从算术平均数的计算过程可以得出：变量值与算术平均数离差之和等于零，变量值与算术平均数离差平方和为最小值，常数的算术平均数就是其本身，对于两个变量，它们代数和的算术平均数就等于两个变量算术平均数的代数和。

（2）调和平均数

调和平均数（harmonic average）是标志值的倒数的算术平均数的倒数。其计算公式为

其中，H为调和平均数，在使用的时候要注意：变量的取值不能为0，否则无法计算；调和平均数易受极端值得影响，它只适用于特殊的数据情况，要区分它的使用条件。

（3）几何平均数

几何平均数（geometric mean）是n个观测值乘积的n次方根。几何平均数的计算公式为

其中，G为几何平均数；为连乘符号；x为标志值；n为标志值的个数。

（4）众数

众数（mode）是指一组数据中出现次数最多的变量数值。一组数据可以有多个众数，也可以没有众数。从分布角度看，众数是具有明显集中趋势的数值。众数主要用于定类（品质标志）数据的集中趋势，也适用于作为定序（品质标志）数据以及定距和定比（数量标志）数据集中趋势的预测值。众数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值，它不受分布数列的极大值或极小值的影响，从而加强了众数对分布数列的代表性。当分组数列没有任何一组的次数占多数时，即分布数列没有明显的集中趋势，而是近似于均匀分布时，则该次数分配数列无众数。若将无众数的分布数列重新分组或各组频数依序合并，又会使分配数列再出现明显的集中趋势。如果与众数组相比邻的上下两组的次数相等，则众数组的组中值就是众数值；如果与众数组比邻的上一组的次数较多，而下一组的次数较少，则众数在众数组内会偏向该组下限；如果与众数组相比邻的上一组次数较少，而下一组的次数较多，则众数在众数组会偏向该组上限。由于众数的计算只利用了众数组的数据信息，不像数值平均数那样利用了全部数据信息，因此，众数缺乏敏感性。

（5）中位数

中位数（median）是指将数据按大小顺序排列起来，形成一个数据，居于数列中间位置的那个数据。所研究的数据中有一半小于中位数，一半大于中位数。中位数的作用与算术平均数相近，也是作为所研究数据的代表值。在一个等差数列或一个正太分布数列中，中位数就等于算术平均数。在数列中出现了极端变量值的情况下，用中位数作为代表值要比用算术平均数更好，因为中位数不受极端值的影响；如果研究目的就是反映中间水平，当然也应该用中位数。在统计数据的处理与分析时，可结合使用中位数。在计算中位数时，首先要对数据按照从小到大的次序排列，形成次序统计量x _（1） ≤x _（2） ≤x _（3） ≤…≤x _（n），x _（1）最小，x _（n）最大。若n为奇数，则第项的标志值为中位数；若n为偶数，则中位数等于第项的标志值与第项标志值的算术平均数。

（6）截尾均值

截尾均值（trimmed average）也称切尾均值，是指在一个次序统计量数列中，去掉两段的极值后所计算的算术平均数。截尾均值是综合了均值和中位数两种计量优点的一种新的对集中趋势侧度的计量方法。

2.离中趋势的测量

均值指标可以反映数据的一般水平，即将指标数据的数量差异抽象化，它的缺点是能反映数据之间的差异性，要描述数据特征，还需要从变异指标角度进行预测。数据分布的离中趋势可以从以下指标加以计量反映。

（1）全距

全距（range）也称极差，是最大值与最小值之间的差距。其计算公式为

极差适合用于小样本分析，样本容量大时，极差的使用价值不大，因为它可能会丢弃较多的信息。

（2）四分位差

四分位差（quartile deviation）是总体数量标志值数列中各四分位数离差的平均数。将数列分成四等分，中间形成三个分割点，居于第一分割点的标志值Q ₁ 称为第一四分位数；居于第二分割点的标志值Q ₂ 即中位数，称为第二四分位数；居于第三分割点的标志值Q ₃ 称为第三四分位数。人们习惯取四分位间距的一半，称为四分位差（QD），其计算公式为

四分位差能够避免次数分配数列中两端极端数值的影响，中间部分数列分配越集中，标志值的差异越小，四分位差也越小。

（3）异众比率

异众比率（variation ratio）也称为离异比率或变差比，是指非众数组织的频数占总频数的比率。异众比率反映众数的代表性程度。异众比率越大，说明非众数组的频数占总频数的比率越大，众数的代表性比较差；反之，异众比率越小，众数的代表性越好。异众比率的计算公式为

其中，V _r 为异众比率；为变量值的总频数；为众数组的频数。

（4）方差和标准差

方差（variance）和标准差（standard deviation）是测度数据离异程度的最重要、最常用的指标。方差是各个数据与其算术平方数的离差平方和的平均数，通常以σ ² 来表示。方差的计算公式为

由于方差的计量单位和量纲不便从经济意义上进行解释，所以实际统计工作中多用方差的算术平方根，即标准差来测度统计数据的差异程度。标准差是总体各单位标志值与平均数离差平方的平均数的平方根。它反映标志值与平均数离差的平均水平，是测定标志变动度量最常用的指标。求标准差之所以将离差加以平方，是因为可以消除离差的正负号，并将离差程度强化，最后把结果开方是为了恢复原来的计量单位。以表示标准差，其计算公式为

由于方差和标准差都是具有单位的绝对数值，其大小必然受到总体单位标志值本身水平的影响，不同数据序列方差和标准差不具有可比性。为此，采用一个相对数值来反映变异的相对数是必要的，标准差系数就是这样一个变异系数。其计算公式为

变异系数V _σ 反映的是标准差相对于均值的离散程度。

3.频率分布及其特征的测量

集中趋势和离中趋势是数据分布的两个主要特征，测度这两个特征的指标无法反映数据分布的形状是否具有对称性、分布的扁平程度或偏斜的程度。正态分布是一种对称的分布，其众数、中位数和算术平均数都位于分布的中间部分。在评价目标区的观测值时，需要将原始分值转化为标准正态分布的值才能使用正态分布表。

（1）正态分布标准分值

正-态分布的标准分布值Z _i 表示用标准差的单位来衡量某一特定观测值X _i 与均值X之间的距离。如Z _i 的值是2，表示X _i 与分布的均值之间的距离是2倍标准差。Z _i 的计算公式为

正态分布曲线是对称的，均值与距其Z个单位标准差的值之间的曲线下面积如下图3-7所示，图中的标准差用SD表示。其中横坐标的间距为1个SD，0点处表示所处的位置。

图3-7 正态分布曲线标准差

（2）偏度系数

偏度系数是反映变量频数分布曲线高峰是偏左、居中还是偏右的指标。其计算公式为

偏度系数sk如果小于零，表示负偏（左偏）；如果大于零，表示正偏（右偏）；如果等于零，表示分布对称。

（3）峰度系数

峰度系数反映变量的频数分布的高峰是平阔峰、正态峰或者尖峭峰的指标。峰度系数的计算公式为

峰度系数ku如果小于零，表示频数分布曲线为平阔峰；如果大于零，表示频数分布曲线为尖峭峰；如果等于零，表示曲线为正态峰。

3.3.3 金融数据的均值分析、因子分析与主成分分析

1.均值比较分析

调查研究中如果样本来自总体，那么，总体的特征可以采用集中趋势或离中趋势加以描述和统计，其结果可以准确地描述总体。一般的，数据总体的均值应为0，方差应为1，即服从正态分布。现实中，样本均值与方差都不能满足上述条件，但加大样本规模使之分布接近总体的正态分布。均值过程的优势在于各组的描述指标被放在了一起，便于相互比较，并且如果需要，可以直接输出比较结果，无须再次调用其他过程。

（1）假设检验

假设检验（hypothesis testing）是用来判断样本与样本，样本与总体的差异是由抽样误差引起，还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设，然后通过抽样研究的统计推理，对此假设应该被拒绝还是接受做出判断。

假设检验的基本思想是小概率反正法思想。小概率思想是指小概率事件（P <0.01或P <0.05）在一次试验中基本上不会发生。反正法思想是先给出原假设（H ₀ ），再用适当的统计方法确定假设成立的可能性大小，若可能性小，则认为假设不成立；若可能性大，则还不能认为假设不成立。检验过程是比较样本观察结果与总体假设的差异。差异显著，超过了临界点，拒绝H ₀ ；反之，差异不显著，接受H ₀ 。

假设检验中接受或拒绝H ₀ ，都可能犯两种类型的错误：第一类错误，拒绝正确的原假设，发生的概率为α；第二类错误，接受错误的原假设，发生的概率为β。拒绝正确的原假设的概率α通常被称为显著性水平，取值为0.1、0.05或0.001，如果取值0.05则表示我们在5%的情况下拒绝了它。概率1-β被称为检验功效，它反映了当原假设错误时，检验拒绝它的能力。表3-3列出了假设检验中可能发生的错误类型。

表3-3 假设检验的错误类型

假设检验的一般步骤是：首先根据研究的问题确定原假设，依据研究设计和抽样分布选择适当的统计检验，确定显著性水平，收集数据并计算出合适的检验统计量值，在原假设的条件下确定检验统计量的概率，将得到的概率与选定的显著性水平作比较，决定是否拒绝原假设。

假设意味着设想或信念，如投资股票的收益是否大于投资债券的收益？原则上假设是可以被检验的。为此，我们引入了备择假设。通过假设检验，我们加深了对事物的认识。

（2）卡方（χ ² ）检验

χ ² 检验（chi-square test）适用于拟合优度检验，检验实际观测值数目与期望观测值数目之间是否存在显著差异，在统计上是否显著。当检验问题为实际分布是否与理论分布相符合时，大样本可以用分类数据的卡方检验来完成。其公式为

其中，O _i 为观测值的实际频数；E _i 为期望频数；k为样本分类数。从计算公式可知，实际频数与期望频数越接近，χ ² 就越小。如果两者相等，则χ ² 为零，完全拟合。在原假设H ₀ 成立的条件下，样本容量足够大时，χ ² 统计量近似服从自由度df=k-1的χ ² 分布，这时，可以依据给定的显著性水平α在卡方临界值表中查到相应的临界值，如果χ ² 大于等于，则拒绝原假设H ₀ ；否则不能拒绝H ₀ 。也可以根据统计分析软件输出的统计量值的显著性概率值p和显著性水平α作比较，如果p小于等于α，则拒绝H ₀ ；否则不能拒绝H ₀ 。

（3）单均值假设

如果总体方差未知，那么均值的标准误差也未知，就需要样本数据来估计均值的标准误差。估计方法为

其中，SD _x 为均值的标准误差；SD'为估计标准误差；N为样本规模。估计标准差的计算公式为

该检验统计量服从自由度为N-1的t分布，当观测值增加时，它接近于正态分布。

2.因子分析

因子分析（factor analysis）是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法，目的是定义数据矩阵的基本结构。它通过定义一套通用的基本维度（因子）来解决那些多变量之间相关性的结构分析问题。因子分析同时考虑一个变量和其他所有变量之间关系的相互依赖关系，在分析过程中不区分自变量和因变量。因子分析可以分为探索性因子分析和证实性因子分析。探索性因子分析的目的在于发现隐含而未知的结构；证实性因子分析的目的是检验被假设的结构。

（1）因子分析的步骤

因子分析的基本过程可分为两个步骤：第一步是主因子分析。通过对原始变量的相关系数矩阵内部结构的研究，导出能控制所有变量的少数几个综合变量，通过这几个综合变量来描述原始的多个变量之间的相关关系。一般来说，这几个综合变量是不可观测的，故称其为因子，这种通过原始变量相关系数矩阵出发的因子分析被称为R型因子分析。因子分析所获得的反映变量间本质联系、变量与公共因子关系的全部信息通过导出的因子负荷矩阵体现。第二步是对因子解释和命名。从因子分析导出负荷矩阵的结构出发，把变量按与公共因子相关性大小的程度分组，使同组内变量间的相关性较高，不同组的变量的相关性较低，按公因子包含变量的特点（即公因子内涵）对因子作解释命名。

（2）因子分析模型

一般的，设X =（x ₁ ，x ₁ ，…，x _p ）'为可观测的随机变量，且有

其中f=（f ₁ ，f ₂ ，…，f _m ）'为公共（共性）因子（common factor），简称因子（factor）。e=（e ₁ ，e ₂ ，…，e _p ）'为特殊因子（specific factor），f与e均为不可直接观测的随机变量。μ=（，，…，）'为随机变量x的总体均值，A =（a _i，j ） _p×m 为因子负荷（载荷）（factor loading）矩阵。

通常先对x做标准化处理，使标准化得到的新变量均值为零，方差为1。这样就有

假定：①f _i 的均数为0，方差为1；②e _i 的均数为0，方差为δ _i ；③f _i 与e _i 相互独立，则称x为具有m个公共因子的因子模型。

如果再满足④f _i 与f _j 相互独立（i≠j），则称该因子模型为正交因子模型，x的方差可表示为

设，则

（1）是m个公共因子对第个变量的贡献，称为第个共同度（communality）或共性方差、公因子方差（common variance）。

（2）δ _i 称为特殊方差（specific variance），是不能由公共因子解释的部分。

因子载荷（负荷）a _ij 是随机变量x _i 与公共因子f _i 的相关系数。

因子分析中提取因子的方法有主因子法、迭代主因子法、极大似然法、主成分法。

3.主成分分析

主成分分析（principle components analysis，PCA）也称主分量分析，是一种降维的统计方法。它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，在代数上表现为将原随机向量的协方差矩阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。主成分分析经常用于减少数据集的维数，同时保持数据集对方差贡献最大的特征，这是通过保留低阶主成分、忽略高阶主成分做到的。

用主成分分析法可以构造回归模型，把各主成分作为新自变量代替原来自变量x做回归分析。用主成分分析筛选回归变量，回归变量的选择有重要的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。

实验项目2

广义货币供应量数据挖掘处理实验

一、实验类型

设计型实验。本实验主要是设计1978—1989年中国广义货币供应量M ₂ 数据挖掘、处理与分析的基本路径与程序。

二、实验目的与要求

通过实验教学，使学生掌握金融统计系统不完善导致的时间序列数据中缺失数据的挖掘、修补方法；掌握数据的收集渠道。

三、实验背景

分析与检验经济货币化程度，需要广义货币M ₂ 的时间序列数据。现有的公开统计中，中国人民银行公布的货币广义供应量数据是从1990年开始的，1985—1989年的有关数据可以在《中国金融年鉴1990》中找到，但口径比较小；1978—1984年M ₂ 的数据需要挖掘修补。

四、实验环境

数据处理软件工具：微软Excel工作表。

数据基础：《中国金融年鉴1986—1991》电子版或纸质版；具有代表性的有：易纲著《中国的货币银行于金融市场1984—1993》（第59页）、武剑著《货币政策与经济增长》（第206页）。

五、实验原理

广义货币M ₂ 的统计构成原理。按照国际货币基金组织（IMF）的货币统计标准与我国的货币统计实践，广义货币M ₂ 的计算公式为

M ₂ =M ₁ +定期存款储蓄存款其他存款+证券公司的客户保证金

其中，狭义货币M ₁ 的计算公式为

按照M ₂ 的计量原理及相应的基础数据进行测算。

六、实验步骤

第一步，从《中国金融年鉴1990》中找到1985—1989年货币概况数据，如图3-8所示。

图3-8 1985—1989年货币数据截图

第二步，从《中国金融年鉴1988》中找到1978—1984年国家银行与农村信用社存款与流通中货币数据，如图3-9所示。

图3-9 1978—1984年国家银行与农村信用社存款与流通中货币数据截图

第三步，建立1978—1989年中国广义货币M ₂ 数据挖掘Excel文件。将1978—1989年流通中的现金与各项存款数据及1985—1989年货币数据导入该文件，如图3-10所示。

图3-10 1978—1989年流通中的现金与各项存款数据及1985—1989年货币数据截图

第四步，将挖掘出的中国1978—1989年广义货币M ₂ ，直接使用现金加存款得出的数据与其他学者测算的数据进行比较。主要与易纲（2003）、武剑（2000）的文献中同期M ₂ 数据进行对比，如图3-11所示。

图3-11 货币数据比较截图

第五步，分析数据差异，提出调整建议。通过对比挖掘数据结果与其他学者使用的数据发现，数据之间存在明显的差异。挖掘得出的各年M ₂ 数据明显大于这两位学者使用的数据，挖掘数据与直接按照现金加存款方法测算的数据也略有差异，应该是在银行存款相应的轧差方面处理不够细致。1978—1984年两位学者的M ₂ 数据是一致的，但1985—1989年武剑使用的数据大于易纲使用的数据。问题主要是口径不一致。从1985年以后，中国的银行数量开始增加，先后恢复交通银行，新设中信银行和招商银行等，邮政储蓄、城市信用社等机构也基本同时建立，非银行金融机构的数量也开始增加。国家银行包括中国工商银行、中国农业银行、中国建设银行、中国银行、交通银行（1986年开始）、中信银行（1987年开始）。中国人民银行在《中国金融年鉴1990》中给出的M ₂ 仅统计了国家银行和农村信用社的存款，口径小一些。可见两位学者的数据口径也仅仅是指国家银行和农村信用社。

七、实验结果分析

数据存在差异的原因主要是统计口径问题。如果直接采用现金加存款的计算公式测算M ₂ ，主要的问题是无法消除金融机构之间相互存款的重复统计，需要轧差。通过比较1992年以后的现金加存款数据和M ₂ 统计数据的差异发现，M ₂ 占现金加存款之和的比例大约为99%。因此，如果不考虑金融机构相互存款的轧差问题，M ₂ 的数据可以用现金加存款数据替代。本实验得出的现金加存款数据和挖掘出的1978—1989年M ₂ 数据比较全面地反映了M ₂ 的真实水平。

练习

1.对1978—2009年中国货币供应量数据进行描述性统计分析。

2.1978—2009年货币供应量数据需要进行挖掘整理，之后将货币供应量数据转化为增长率指标进行描述性统计分析。