金融统计实验分析最新章节_郭文旌著

3.2 金融数据挖掘原理与技术方法

3.2.1 金融数据挖掘的基本原理

1.金融数据挖掘的概念

数据挖掘（data mining，DM）是20世纪90年代以来兴起的新型交叉学科，它融合了数学、信息学、统计学、人工智能等学科理论和方法，广泛应用于航空学、生物学、医学、经济学、金融学等学科领域，在科学研究、决策管理、商业运作等方面发挥着重要的作用。关于数据挖掘内涵的界定，有多种表述，如数据挖掘是知识发现过程，以辨识存在于数据中的未知关系和模式的方法；数据挖掘是发现数据中有益模式的过程；数据挖掘是一个确定数据中有效的、新的、可能有用的并且最终能被理解的模式的重要过程等。尽管表述不同，但基本内涵是一致的，就是通过对数据加工处理，发现隐含在数据中的信息、知识，并用可以理解的模式表现出来的过程。数据挖掘有相应的行为主体、目标、方法等要素。据此，可以界定金融数据挖掘的概念。

金融数据挖掘（financial data mining）是金融行为的选择者从大量的、不完全的、存在噪声的、模糊的、随机生成的金融数据中，搜索、发现、提取隐含在数据内部的、尚未被他人发现的、对决策具有潜在价值的信息或知识的过程。数据挖掘过程是一个信息和知识发现的过程，也是信息和知识发现的核心环节。

2.金融数据挖掘的基本环节

金融数据挖掘是从大型金融统计数据集中发现对金融行为选择有用信息的过程。数据挖掘主要使用数学分析来发现存在于数据中的模式和趋势，由于它们涉及的关系过于复杂或数据过多，因此，使用传统的数据浏览方式是无法实现的，需要借助计算机和相应的数据处理软件来完成信息甄别和数据模式化处理过程。这是一个多步骤、人机反复交互的过程。其基本程序如下。

（1）掌握金融领域的基本知识和金融行为决策的目标。比如，分析判断货币流通速度的变化，需要掌握货币流通速度测算的基本原理和方法。

（2）依据金融行为选择目标，选定要解决的问题和适合的金融数据集。分析货币流通速度变化，为货币供应目标设定参照基准，数据集包括不同层次的货币指标、序列数据的时间范围，比如1990—2010年的狭义货币M ₁ 、广义货币M ₂ 、国内生产总值GDP。

（3）对原始数据进行预处理。由于各种原因，集中的原始数据可能存在某些问题。比如，个别时间点数据缺失，数据异常，存在一些无关数据，数据噪音比较大等，需要采用相应的办法，对原始数据进行填补、去除、替换、去噪等处理。

（4）将数据集中的数据转换成适合挖掘的形式。由于数据集中的数据变量比较多，比如，货币统计数据库中有现金、存款、贷款等数据，需要采用缩维方法进行处理，将现金、存款转化为货币供应量指标。

（5）确定合适的数据挖掘方法。依据金融数据挖掘的目的，选用合适的数据挖掘方法和工具，如聚类、分类等。

（6）数据挖掘过程。目标数据处理为可被理解的模式或知识过程，比如运用处理后的数据测算货币流通速度，给出测算结果。

（7）分析解释。将获得的数据模式进行加工转换，去除不切实际和不符合金融理论的模式，转化为有用的模式，使数据使用者容易理解和运用。

（8）数据运用。将数据结果形成的信息或知识运用于金融行为选择过程之中，解决相关实际或理论问题。比如运用货币流通速度分析货币政策效果，提出改进政策操作的对策建议等。

数据挖掘的基本原理可以用图3-1来描述。

图3-1 数据挖掘基本原理

3.2.2 金融数据挖掘的主要任务

金融数据挖掘的主要任务是对目标数据进行关联分析、聚类、分类、估计、预测、异常检验、时序模式的发现等。

1.关联分析

金融数据库中的两个或多个变量之间的数值存在某种规律性，这种规律性就是数据之间的关联，也可以称为相关性。比如，商业银行贷款的增长速度与股票价格指数之间就存在某种关联，这是因为两个数据项的取值同向变化重复发生的概率很高。关联分为简单关联、时序关联和因果关联等。

关联分析就是在数据库中寻找变量数值之间的关联规则，目的是发现变量数据之间的关联性，以便能够用关联数值预测某一变量的变化趋势和规律。

2.聚类

聚类是将数据库中的数据按照一定的规则分为一系列有意义的子集的过程，这些子集称为类。在同一类别中，个体之间的差距比较小。通过对数据进行聚类，可以增强人们对金融现象的客观认识，建立起宏观概念。统计分析方法中的聚类分析是依据距离进行的聚类，是基于全局比较的聚类，需要考虑所有个体才能决定的划分。

3.分类

分类是找出一个类别的内涵或特征，能够代表该类数据的整体信息。描述一个类的内涵可以是特征描述，即对类中对象共同特征进行描述；也可以是辨别性描述，即对两个或多个类之间进行区别描述。

4.估计

描述是数据挖掘中确定一个变量未知数据的值。估计针对的值通常是数值型，而不是类别型。如估计2010年上证综合指数可能达到的点位、银行贷款发生坏账的可能性等。

5.预测

预测是利用历史数据发现将于未来发生的数值的过程。未来隐含在现实当中，尤其是预测不远将来的变化，时序数据分析可以做出比较客观的、相对准确的预测。

6.异常检验

异常检测是对数据中存在的异常情况进行发现、甄别的过程，找出观察数据与参照标准之间的差异，更好地为模型预测分析服务。数据中的异常情况有：某些数据由于统计口径发生变化而出现差异，分类的调整或改变导致的数据异常，噪音过大导致的异常等。

7.发现时序模式

时序模式是在时间序列中找到重复发生概率比较高的模式，强调时间的影响。比如，申请固定资产投资贷款的企业，有70%在6个月后申请流动资金贷款；购买汽车类股票的投资者，有50%在数个交易日后购买橡胶轮胎类上市公司的股票。在时序模式分析中，需要找出某个最短时间内发生比率一直高于某一百分比的规律。

3.2.3 金融数据挖掘的统计技术方法

数据挖掘方法涉及多个学科，如信息论、模糊数学、统计学等，主要的技术方法有支持向量机方法（support vector machine，SVM）、可视化技术、神经网络、遗传算法、模糊数学技术、信息论方法、粗糙集方法、统计分析方法等。下面主要介绍统计分析方法。统计分析方法是数据挖掘中使用最广、最为成熟的方法，尤其是在经济分析、社会调查中使用甚广。统计分析方法也是宏观经济政策决策、微观投资选择的重要分析工具。主要的统计分析方法有以下几类：

1.描述统计分析

描述统计分析是描绘或总结观察量的基本情况的统计分析方法，是将数据用图形、表格形式表现出来，对观察量进行总体描述的方法。它又可分为集中趋势分析、离中趋势分析和统计图形分析。

（1）集中趋势分析

集中趋势分析主要靠平均数、中位数、众数等统计指标来表示数据的集中趋势。平均数可分为简单平均数、几何平均数和调和平均数。一组数据的简单算术平均数或加权算术平均数，适合于正态分布或对称分布数据；几何平均数和调和平均数都是算术平均数的变形，专门用来处理特殊数据的平均数，如经济发展速度等；众数是出现频率最高的数；中位数是将数据排序后位于正中间的数值。

（2）离中趋势分析

离中趋势是指数列中各变量值之间的差距和离散程度。离中趋势小，平均数的代表性高；反之，则平均数的代表性低。离中趋势分析通过计算极差、标准差、方差、最大值、最小值、偏度、峰度、偏度系数、峰度系数等加以描述。极差是数据最大值减去最小值，也是最简单的离散程度测度值；标准差和方差是最常用的离散程度测量值，一般适合于正态分布数据资料。当分布对称时，偏度系数（skewness）为0；当偏度系数为正值时，可以判断为右偏（正偏）；反之，判断为左偏（负偏）。峰度系数（kurtosis）是对数据分布平峰或尖峰程度的测度。峰度是针对标准正态分布而言的。峰度系数为0，表明数据为标准正态分布。若峰度系数大于0，则数据为尖峰分布；反之，为平峰分布。

（3）统计图形分析

一般采用直方图、PP图、茎叶图、箱线图等对观数据进行直观描述，可以清晰地看出数据的分布特征和结构状况，是用于观察数据分布形态的辅助工具。图3-2是2008年中国短期贷款构成的直方图。

图3-2 2008年中国短期贷款构成的直方图

2.相关分析

相关分析（correlation analysis）是通过计算变量的序列数据之间的相关数据来分析变量之间的线性相关程度。相关分析工具一般包括相关表、相关图和相关系数。

（1）相关表

如果两个变量之间存在相关性，可以通过将变量数据资料配对形式，制成一个表格，这个表格就是相关表。

案例点击

城镇居民储蓄存款与经济增长之间的相关性

1978—2008年，我国经济保持年均9%以上的增长速度，城乡居民获得了实实在在的福利，生活质量不断提升，家庭储蓄存款持续增长。表3-1是我国城镇居民储蓄存款余额与经济总量序列数据，从同一时点看，这两个变量之间存在明显的相关性。居民储蓄增长与经济的持续稳定增长是分不开的。

表3-1 中国城乡居民储蓄存款余额与经济总量

亿元人民币

数据来源：《中国统计年鉴2009》，《中国金融年鉴1990》。

（2）相关图

相关图也称为散点图，可以直接地反映两个变量之间的相关程度，即将一个变量作为横坐标x，另一个变量作为纵坐标y，在平面直角坐标系中划出点（x _i ，y _i ），图3-3是城乡居民储蓄存款与国内生产总值的相关图。

图3-3 城乡居民储蓄存款与国内生产总值相关图

（3）相关系数

两个变量之间是否存在线性相关关系，可以通过计算相关系数（correlation coefficient）确定。样本相关系数用r来表示，总体相关系数用ρ来表示，相关系数的取值一般介于-1到1之间。相关系数的计算公式为

3.差异分析

差异分析（variance analysis）就是通过比较样本统计量的值，来确定总体参数之间是否存在差异。它是将一组资料的总变动量，按照可能造成变动的因素分解成不同的部分，并且以假设检验的方法来判断这些因素是否确实能解释资料的变动。例如，要确定不同的金融生态环境是否对商业银行的经营绩效产生影响，我们可以观察在不同省份或地区商业银行经营业绩指标的差异，如不良贷款比率的高低差异等（这种差异是否由金融生态环境的不同而产生，需要进一步分析）。我们采用地区经济发展水平，企业资信级别等作为评价金融生态环境的指标，之后测度不同地区商业银行的平均不良贷款比率与金融生态环境指标之间的关系，分析环境影响的差异程度。

4.回归分析

回归分析（regression analysis）是用于检验变量之间关系的最广泛、最有用的方法。在回归分析中，有一个因变量、一个或多个自变量，自变量和因变量常被假设为定距的（即间距或比率尺度一定）。

（1）简单线性回归

两点确定一条直线，直线在坐标图中与纵坐标相交的点为直线的截距，直线有一定的斜率。那么，这条直线的方程可以描述为

其中：Y是因变量或者想要预测的变量；x _i 是第i个对象的分值或预测变量；β ₁ 是根据数据拟合的直线的斜率；β ₀ 是直线的截距；ε _i 是对象根据直线而得到的预测值与对象之间的误差，称为残差。回归分析一般基于以下假设：误差的期望值为零，即E（ε _i ）=0；每个x _i 的误差是不变的，称为同误差；观测值的误差是不相关的；残差应呈正态分布；误差与观测值不相关，即Corr（x _i ，ε _i ）=0；回归模型是线性的。回归分析实验中，判断残差或扰动是否存在自相关的方法是DW检验，DW检验统计量接近2，就不存在自相关风险；接近0，就可能存在正的自相关；接近4，则存在负的自相关。

（2）多元回归

运用两个或更多变量来解释预测因变量，目的是使模型更加接近于现实情况。一般多元线性回归模型可以表示为

建立多元线性回归模型时，为了保证回归模型具有优良的解释能力和预测效果，应首先注意自变量的选择。自变量选择的基本原则是：自变量对因变量必须有显著的影响，并呈密切的线性关系；自变量与因变量之间的线性相关必须是真实的，而不是形式上的；自变量之间应具有一定的互斥性，即自变量之间的相关程度不应高于自变量与因变量之间的相关程度；自变量应具有完整的统计数据，其预测值比较容易确定。

与一元线性回归中可决系数R ² 一样，多元线性回归中也有多重可决系数R ² ，它是在因变量的总变化中，由回归方程解释的变动（回归平方和）所占的比重。R ² 越大，回归方程对样本数据点拟合的程度越强，所有自变量与因变量的关系越密切。

多元回归中的估计标准误差是因变量的实际值与回归方程求出的估计值之间的标准误差。估计标准误差越小，回归方程的拟合程度越高。

回归方程的显著性检验一般采用F检验，用以评价所有自变量与因变量的线性关系是否密切。根据给定的显著性水平a、自由度（k，n-k-1）查F分布表，得到相应的临界值F _a ，若F >F _a ，则回归方程具有显著意义，回归效果显著；若F <F _a ，则回归方程无显著意义，回归效果不显著。

在一元线性回归中，回归系数的显著性检验（t检验）与回归方程的显著性检验（F检验）是等价的，但在多元线性回归中，这两种检验并不等价。多元回归中的t检验分别检验回归模型中各个回归系数是否具有显著性，修正模型中只保留那些对因变量有显著影响的因素。检验时，先计算统计量t _i ；然后根据给定的显著性水平a、自由度n-k-1查t分布表，得临界值t _a 或，以判断变量系数的显著性。若某个回归系数的t检验通不过，可能是这个系数相对应的自变量对因变量的影响不显著所致的，此时，应从回归模型中剔除这个自变量，重新建立更为简单的回归模型或更换自变量。

变量不显著也可能是自变量之间存在多重共线性所致，此时应设法降低共线性的影响。多重共线性是指在多元线性回归方程中，自变量之间有较强的线性关系，这种关系若超过了因变量与自变量的线性关系，则回归方程的稳定性会受到破坏，回归系数估计不准确。判决多元线性回归方程是否存在严重的多重共线性问题，可分别计算每两个自变量之间的可决系数r ² ，若r ² >R ² 或接近于R ² ，则应设法降低多重共线性的影响。

多重共线性也可以通过计算自变量间的相关系数矩阵的特征值的条件加以判断。条件k= ，（λ ₁ 为最大特征值，λ _p 为最小特征值）。若k <100，则不存在多重共线性；若100≤k ≤1000，则自变量间存在较强的多重共线性；若k >1000，则自变量间存在严重的多重共线性。降低多重共线性的方法主要是转换自变量的取值，如变绝对数为相对数或平均数，或者更换其他的自变量。

若回归模型是根据动态数据建立的，则误差项ε _i 也是一个时间序列，若误差序列之间相互独立，则误差序列各项之间没有相关关系；若误差序列之间存在密切的相关关系，则建立的回归模型就不能表述自变量与因变量之间的真实变动关系。D.W检验就是误差序列的自相关检验，检验判别的方法与一元线性回归相同。

（3）虚拟变量

虚拟变量（dummy variable）又称虚设变量、名义变量或哑变量，是用以反映质的属性的一个人工变量，是量化了的质变量，通常取值为0或1。引入哑变量可使线性回归模型变得更复杂，但对问题的描述更加简单明了，一个方程能起到两个方程的作用，而且更接近现实。

虚拟变量在模型中的作用是分离异常因素的影响；检验不同属性类型对因变量的作用，提高模型的精度，相当于将不同属性的样本合并，扩大了样本容量，增加了误差自由度，从而降低了误差方差。在模型中引入多个虚拟变量时，虚拟变量的个数应按下列原则确定：如果有m种互斥的属性类型，在模型中引入m-1个虚拟变量。

5.聚类分析

聚类就是“物以类聚”的意思，金融学中的聚类分析（cluster analysis）是对金融经济指标进行分类的一种多元统计分析方法，它能够分析事物的内在特点和规律，并根据相似性原则对事物进行分组，是数据挖掘中常用的一种技术和探索性方法。聚类分析适用于没有先验知识的分类，如没有理论指引，没有国际标准、国内标准或行业标准，对指标的分类便会显得随意和主观。但是，聚类分析可以通过设定比较完善的分类变量得到较为科学合理的类别。聚类分析的另一功能是，它可以处理多个变量决定的分类，如要根据股票投资者的交易规模进行分类比较容易，但在进行数据挖掘时，要求根据股票投资者的交易规模、收入状况、学历状况、年龄、性别等多个指标进行分类通常是比较复杂，聚类分析法能够解决这一问题。聚类分析中的计算方法主要有分裂法、层次法、基于网络的方法和基于模型的方法。

6.判别分析

判别分析（discriminant analysis）是在已知的分类下，遇到有新的样本时，利用已经选定的判别标准，判定如何将新样本放置于哪个族群中。它是一种预测导向型的统计方法，用于事后分析。它与分群分析不同，分群分析则是希望将一群具有相关性的数据加以有意义的分类。假设有数个群体，取数个变量组作为适当的判别标准，即可辨别该群体的归属。例如，新成立的村镇银行尽管地处农村，也应该将其划入商业银行，而不是归入农村信用社一类当中，这是判别分析。假如你收集到的金融机构样本很多，有商业银行、信用社、信托公司、保险公司、证券公司等，将这些机构分别归类，则属于分群分析。判别分析建立区别函数，其目标是找出预测变量的线性组合，且各线性组合之间不相关；检定各群（组）重心是否有差异；找出哪些变量具有区别能力；根据新受试者的预测变量数值，将该受试者指派到某一群体。

7.时间序列分析

随机数据依时间先后排成序列，称为时间序列。时间序列分析（time series analysis）包括一般统计分析（如自相关分析、谱分析等），也包括统计模型的建立与推断，以及关于随机序列的最优预测、控制和滤波等内容。时间序列分析注重研究数据序列的相互依赖关系，实际上是对离散指标的随机过程的统计分析，所以又可以看作随机过程统计的一个组成部分。平稳随机序列的统计分析在理论上发展比较成熟，是时间序列分析的基础。谱分析也称频域分析，因为一个时间序列可看作各种周期扰动的叠加。频域分析就是确定各周期的振动能量的分配，这种分配称为“谱”，或者“功率谱”。在模型分析方面，2000年以来，应用最广泛的时间序列模型是平稳自回归-滑动平均模型，简称ARMA模型。此外，其他的模型分析方法中，线性模型的研究比较成熟，它与ARMA模型分析有密切关系。