空间信息智能处理最新章节_张飞舟著

1.7 空间信息智能处理方法

1.7.1 模式识别处理方法

下面从类条件概率分布的估计、线性判别法、贝叶斯分类器、误差界以及新的模式识别（PR）方法等方面概述近几年有关统计模式识别方面的研究进展。

1.类条件概率分布的估计

考虑将待识样本X∈R ^d 判别为C个不同类ω ₁ ，ω ₂ ，…，ω _c 中的某一类。由贝叶斯定理，X应判为具有最大后验概率的那一类。由于类条件概率分布未知，故通常假定分布为某一带参数的模型如多维正态分布（当多维正态分布中均值向量和协方差矩阵已知时，由此分布得到的二次判别函数是最优的），而表示分布的参数则由训练样本进行估计。当训练样本不充足时，分布参数包含估计误差，会影响识别精度。为了提高分类精度，H. Ujiie等人提出了这样一种方法：首先，将给定数据进行变换（带指数函数的变换），使得变换后的数据更近似于正态分布，而不论原数据所服从的分布如何，且在理论上找到了最优变换；然后，为了处理这些变换后的数据，对传统的二次判别函数进行了修改；最后，提出了变换的一些性质并通过实验表明了该方法的有效性。为了避免分类精度的降低，人们通过研究特征值的估计误差，提出了各种方法，但对特征向量的估计误差却考虑得不多。M. Iwamura等人经过研究得出：特征向量的估计误差是造成分类精度降低的另一个因素，因而在相关文献中提出了通过修改特征值以弥补特征向量的估计误差的方法。

2.线性判别法

20世纪90年代中期，统计学习理论和支持向量机算法的成功引起了广大研究人员的重视。支持向量机算法具有较扎实的理论基础和良好的推广能力，并在手写数字识别、文本分类等领域取得了良好的效果。它的一个引人注目的特点是利用满足Mercer条件的核函数实现非线性分类器的设计，而不需要知道非线性变换的具体形式。Fisher判别法和主成分分析法是在模式分类与特征抽取中已经获得广泛应用的传统线性方法。近年来出现的基于核函数的Fisher判别法与基于核函数的主成分分析法是它们的线性推广，具有性能更好、适用范围更广、灵活性更高等特点，是值得关注的应用前景看好的新方法。

考虑有两类问题且每类中的训练样本数大于样本的维数的情况时，基于训练样本来划分一个多维空间的两种方法，是对Fisher线性判别法的两点改进：第一种是多维参数搜索；第二种是递归Fisher方法。这两种方法在模式检测方面比标准的Fisher判别法训练效果更好。利用Mercer核，可以将这两个方法推广到非线性决策面。

3.贝叶斯分类器

PR的目的就是要判别一个模式（由它的特征表示）属于某一类。考虑有两类的情况。采用贝叶斯分类器时，模式是按最大后验概率进行分类的，这由一个判别函数来完成。多数情况下，该判别函数是线性的或二次的。

最优决策的贝叶斯分类器可以由概率神经网络来实现。Menhaj先前提出过一个新的学习算法，来训练当所有类别完全分离时的网络，并将该方法推广到一般的有重叠类别的情况。可以用非线性动态系统（nonlinear dynamical system，NDS）的集合来对模式进行分类，其中每个NDS将输入值分类为IN或OUT类型。输入值通过每一个NDS 进行迭代并沿着一个轨道收敛到一个全局稳定吸引子（attractor），它是该NDS所代表的类的原型。与传统的神经网络方法相比，竞相吸引子神经网络（race to the attractor neural network，RTANN）模型方法受益于与人的大脑联系更广的几个有利条件。

要从杂乱的背景图像中检测出目标，诸如人脸和汽车等，是一个具有挑战性的课题。许多应用系统需要准确而快速的检测。换句话说，降低检测错误和减少计算复杂性是两个主要问题，而且很多目标检测的工作集中在性能改善上，而对复杂性问题注意很少。通过在贝叶斯决策规则下的误差分析，可以靠减少检测时系数的数量来降低计算的复杂性。

4.误差界

最小分类错误（minimum classification error，MCE）训练准则，以及其他判别训练准则，如极大交互信息（maximum mutual information，MMI）准则等，都是统计模式识别中训练模型参数的标准极大似然（maximum likelihood，ML）准则的重要选择。MCE准则表示对给定的分类器训练数据的试验错误率的光滑模型。由于训练准则与降低错误率的最终目标之间的直接关系，MCE训练的分类器不会太依赖于某个模型假设的性质，正如ML和MMI训练的情况。MCE准则给出了一个独立于相应的模型分布的贝叶斯错误率的上界。

按照训练样本的分类间隔数，设置线性分类器的一般误差的一个界。该结论是利用概率近似校正（probably approximately correct，PAC）的贝叶斯结构得到的。由相同的训练数据构造出来的分类器之间存在弱相关性。试验结果表明，若弱相关低且期望的分类间隔大，那么基于这些分类器的线性组合的决策规则可以使错误率呈指数级减少。

5.模式识别新方法

（1）共享核函数模型

概率密度估计构成一个无监督的方法，该方法试图在所得到的没有标记的数据集中建立原始密度函数的模型，其重要应用之一就是它可以被用于解决分类问题。广泛应用于统计模式识别中密度估计的方法之一是基于混合密度模型的。根据期望最大（expectation-maximization，EM）算法可以得到这些模型中有效的训练过程。按照共享核函数可以得出条件密度估计的更一般的模型，这里类条件密度可以用一些对所有类的条件密度估计产生作用的核函数表示。与其相反的是独立混合模型的方法，其中每个类的密度采用独立混合密度进行估计。

（2）粗糙集理论方法

在20世纪70年代，波兰学者Z. Pawlak和一些波兰的逻辑学家们一起从事关于信息系统逻辑特性的研究。粗糙集理论（rough set theory，RST）就是在这些研究的基础上产生的。1982年Pawlak发表了经典论文《粗糙集》（Rough Sets），宣告了粗糙集理论（RST）的诞生。此后，RST引起了许多科学家、逻辑学家和计算机研究人员的兴趣，他们在粗糙集的理论和应用方面作了大量的研究工作。1992年，Pawlak的专著和应用专集的出版，对这一段时期理论和实践工作的成果作了较好的总结，同时促进了粗糙集在各个领域的应用；随后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展。越来越多的科技人员开始了解并准备从事该领域的研究。目前，粗糙集已成为AI领域中一个较新的学术热点，在PR、机器学习、知识获取、决策分析以及过程控制等许多领域得到了广泛的应用。

在经典RST中，集合的近似是在目标的非空有限全域下实现的。在点的非空不可数集合下实现集合的近似，一些研究结果引入了基于RST的离散粗糙积分。离散粗糙积分有助于近似推理和PR中连续信号的分割。在近似推理中，离散粗糙积分为确定某特定采样期间传感器的相关性提供一个基。在PR中，离散粗糙积分可用于雷达天气数据的分类、汽车模式分类及动力系统故障波形分类等方面。RST是处理模糊和不确定性的一个新的数学工具。用RST构造决策规则的算法一般都是考虑决策规则的数量而不是它们的代价。采用多目标决策来协调规则的简明和代价之间的冲突，可提高粗糙集的效率和效力。

基于PR方法的动力系统瞬态稳定性估计（transient stability assessment，TSA）通常按两个模式的分类问题进行处理，即区分稳定和不稳定类，其中有选择一组有效的特征和建立一个具有高精度分类的模式分类器这两个基本问题。可通过将粗糙集理论与反向传播神经网络（back propagation neural network，BPNN）相结合来进行瞬态稳定性估计，包括特征提取和分类器构造：首先，通过初始输入特征的离散化，利用基于RST 的诱导学习算法来简化初始特征集；然后，利用采用半监督学习算法的BPNN作为一个“粗糙分类器”，将系统稳定性分为稳定类、不稳定类和不确定类（边界区域）等三类。不确定类的引入提供了减少误分类的一个切实可行的方法，且分类结果的可靠性也因此而大大提高。

（3）仿生模式识别（拓扑模式识别）

基于“认识”事物，而不是基于“区分”事物为目的的PR理论新模型与传统以“最佳划分”为目标的统计模式识别相比，更接近于人类“认识”事物的特性，故称为仿生模式识别；其数学方法在于研究特征空间中同类样本的连续性（不能分裂成两个彼此不邻接的部分）特性。仿生模式识别理论及其高维空间复杂几何形体覆盖神经网络识别方法，应用于地平面刚性目标全方位识别问题取得了初步结果，且对各种形状相像的动物及车辆模型作全方位识别，结果正确识别率可达到99.75%。

1.7.2 专家系统分类法

遥感图像解译专家系统（remote sensing processing expert system，RSPES）是PR与AI技术结合的产物，同时也是遥感数字图像计算机解译过程中的重要工具和环节。它利用PR方法获取地物多种特征，为专家系统解译遥感图像提供证据，并应用AI技术及遥感图像解译专家的经验和方法，模拟遥感图像目视解译的具体思维过程，进行遥感图像解译，起着类似遥感图像判释专家的作用。遥感图像解译专家系统包括遥感图像数据库、解译知识库、推理机和解译器，其中推理机是遥感图像解译专家系统的核心。

1.遥感图像数据库

遥感图像是以数字形式表示的遥感影像，每个像元具有相应的空间特征和属性特征，代表着不同的地物类型和空间关系；而海量的数据需要数据库来存储。遥感图像数据库包括遥感图像数据和每个地物单元的不同特征，它由数据库管理系统进行管理。通过图像处理与特征提取子系统的图像处理功能，如滤波、增强、大气校正、几何校正、正射纠正等，从图像中抽取的光谱特征、图像形状特征和空间特征等结果，就存储在遥感图像数据库；它是专家系统进行推理、判断及分析的客观依据。

2.解译知识库

遥感图像的目视解译是指从遥感图像中发现有什么物体以及物体在什么地方分布的过程。它是解译专家与遥感图像相互作用的复杂过程，涉及目视解译者的知识认知、生理和心理等许多环节。目标地物的识别特征包括色调、颜色、阴影、形状、纹理、大小、位置、图形和相关布局等，这些知识是解译者进行遥感图像解译的知识库。遥感解译知识的获取主要通过一个具有语义和语法指导的结构编辑器实现。

3.推理机

推理机是计算机内部对图像识别所进行的推理过程，是遥感图像解译专家系统的核心。它是在解译知识库的基础上，对地物像元的属性特征提出假设，利用地物多种特征作为依据，进行推理验证，实现遥感图像的解译。

推理机推理的方式有正向推理和反向推理两种。正向推理是指利用事实驱动的方式进行推理，即由已知的客观事实出发，向结论方向推理。这种推理方式的过程大致为：系统根据地物的各种特征，在知识库中寻找能匹配的规则；若符合，就将规则的结论部分作为中间结果，利用这个中间结果，继续与解译知识库中的规则进行匹配，直至得到最终的结论。而反向推理是指以目标为驱动的方式进行推理。先提出一个假设，由此进一步寻找能满足假设的证据。这种推理方式的过程大致为：选定一个目标，在解译知识库中寻找满足假设的规则集；若这个规则集中的某条规则的条件与遥感数据库中的特征参数相匹配，则执行该规则，否则就将该规则条件部分作为子目标，递归执行上述过程，直至总目标被求解或不存在能到此目标的规则。

4.解译器

解译器用于用户与计算机之间的“沟通”，是计算机内部对图像识别的推理过程的说明工具，其作用就是对推理的过程进行解译，以便对用户说明计算机解译的过程。

遥感图像专家系统的分析方法或经验可以用于遥感图像的智能化判读和信息获取，逐步实现遥感图像的理解。例如，通过分析三江平原湿地植被的光谱、景观季相及其生存环境等特点，可以找出不同湿地的遥感影像特征。随着人类对遥感特征认识的深入，建立遥感专家分类决策模型库，实现地物信息的自动分类提取，将是该分类方法的发展趋势。

1.7.3 模糊分类法

模糊分类是近年来在遥感影像分类中引入的一种新研究方法，是一种针对不确定性事物的分析方法。它以模糊集合理论（fuzzy sets theory，FST）作为基础，运用数学模型计算对于所有集合的隶属度，每一像元都在不同程度上隶属于不止一个类别。模糊分类的数学原理与传统的统计分类方法有很大区别，即每一像元中可以混有所有的类别，只是隶属度不同而已。

有学者提出非监督模糊分类处理，其实质在于利用遥感图像所含的信息，预先确定以语气算子表示的隶属函数，借以求取每一像元对土地覆盖不同类型的隶属值，然后根据各像元的隶属值，按一定的模糊规则实施遥感图像的分类处理。有学者提出模糊神经网络分类器，其实质是以模糊权重距离为基础，采用拓展的反向传播算法的多层感知分类器，适用于解决遥感图像分类处理中经常遇到的模糊、重叠且边界不定、关系不明的普遍性问题。有学者提出模糊分割法，其实质在于首先应用反梯度函数于遥感数字图像，以获取模糊集图像，然后根据模糊集理论（FST）定义一个凸复集，再由凸复集表达式定义一个模糊集及其隶属函数，借以实施遥感图像上的模糊分割，即提取模糊图像中的模糊区。换而言之，将遥感图像分割成模糊区谱系树。还有学者提出模糊分类结果的评估法，其实质在于，首先确定模糊分类结果评估用隶属函数，然后借助于准概率将其变换为分类得分形式，据此计算条件熵量化函数值，借以评估模糊分类结果。尽管这方面的研究实例不多，还有一系列问题有待于进一步探讨，但可以肯定地说，利用模糊数学方法进行遥感图像处理是完全可能的。模糊数学作为遥感图像分类处理的有效手段之一，具有广阔的应用前景。

1.7.4 人工神经网络方法

人工神经网络（artificial neural network，ANN）属于非参数分类器，该方法用于遥感分类，始于1988年Hopfield网络模型用于优化计算的神经网络模型。神经元网络模型用于模拟人脑神经元活动的过程，包括对信息的加工、处理、存储和搜索过程，具有分布式存储信息，对信息并行处理及推理，以及在信息处理上自组织、自学习。与传统统计分析方法相比，一方面，神经网络分类方法不需要任何关于统计分布的先验知识，用于遥感影像分类时不必考虑像元统计分布特征；另一方面，神经网络分类方法不需要预定义分类中各个数据源的先验权值，可以广泛地用于多源遥感数据分类。不同学者分别提出或应用反向传播网（back propagation network，BP）、三维Hopfield网、径向基函数（radial basis function，RBF）神经网络和小波神经网络等对遥感图像进行监督分类。在神经网络分类方法中，目前应用最多的是反向传播神经网络算法。

卫星遥感图像的BP神经网络分类方法有：（1）将各波段数据作为神经网络的输入；（2）将目标类型作为神经网络的输出；（3）选择样本训练网络；（4）用训练好的网络进行图像分类，从而获得各类目标的信息分布特征。

在神经网络应用中，模型需要反复训练、比较耗时，而且模型训练的精度会影响整个分类的准确度，一旦模型训练好之后，神经网络分类则会很快完成。李颖等人分别用非监督分类、监督分类以及BP神经网络分类方法把Landsat 5北京某区的遥感图像，分为城市用地、水田、旱地、菜地、滩涂地等五种用地类型。结果表明，这三种分类结果中神经网络分类与真实情况最为接近，分类效果最好。骆成凤等人以中分辨率成像光谱仪（moderate resolution imaging spectroradiometer，MODIS）数据产品为信息源，用神经网络分类中的BP算法对新疆进行了土地利用分类研究。他们先以新疆石河子为实验区进行土地利用分类，比较了BP算法与最大似然法的分类精度，前者的精度提高近10%；然后，用BP算法对新疆维吾尔自治区进行了土地利用分类，分为林地、耕地、裸地与城镇用地、盐碱地、沙漠、湖泊以及冰雪等；最后统计分类结果中各类别的面积和百分比，所得数据与相关部门公布数据非常接近。

1.7.5 优化理论方法

正如以上所述，人工神经网络近年来已被广泛应用于遥感图像分类，其中应用最多、也是最成功的当数BP神经网络及其变化形式。然而，传统的BP神经网络算法存在收敛速度慢、易陷入局部极小、隐层神经元数目难以确定等局限性，而且在地形条件、地物类型复杂地区应用成功的案例较少。为了得到更好遥感图像分类效果，许多学者进行了大量研究。例如，柯华明在基于Matlab神经网络和遗传算法工具箱平台下，用量化共轭梯度法改进标准BP算法，采用遗传算法优化BP网络的隐层神经元数目、初始权重，达到快速搜索网络最优解、克服BP网络局限性的目的，并以地形、地类复杂的香格里拉县增强型专题绘图仪（enhanced thematic mapper，ETM+）影像分类为例，在DEM地形数据辅助下，将传统分类方法与GA优化的BP神经网络分类进行比较，通过精度评价分析后者的有效性和优势。

另一方面，各种聚类算法已经被广泛用于图像的自动分割，但是传统的聚类算法缺乏对图像空间特征和像素特征的综合考虑，因而对噪声十分敏感，计算效率不高，或者由于遥感图像的数据量增大，计算速度慢。戴芹等人综合和改进了前人提出的图像分割方法，将GA和蚁群优化算法（ant colony optimization，ACO）组合对模糊聚类进行优化，在提取遥感图像的灰度特征和空间特征进行聚类基础上，引入图像的像元灰度、像元邻域灰度均值和像元灰度梯度三个特征，利用这些特征作为聚类依据，将图像的多个特征结合到智能计算中，充分利用GA和ACO各自的优势和特点，既提高了图像分割的准确性，又加快了分割过程的速度。实验结果表明，GA和ACO组合算法优化的模糊聚类是一种性能良好的遥感图像分割方法。与此同时，随着空间信息融合技术应用的日益广泛，传统算法的局限性也逐渐暴露出来，因此各种改进优化算法应运而生。多源信息融合是通过将多种信源在空间上和时间上的互补与冗余信息依据某种优化准则组合起来，产生对特定对象的一致性解释与描述。

1.7.6 多源信息融合方法

1.多源信息融合理论方法体系

目前，多源异构是空间信息的基本特征之一，多源数据融合也成为大数据分析处理的关键环节，多源数据融合成为大数据领域重要的研究方向。中国计算机学会（China Computer Federation，CCF）大数据专家委员会秘书长程学旗在2014年大数据技术大会上发布了《中国大数据技术与产业发展白皮书（2014）》，对今后大数据发展趋势进行预测，其概括为融合、跨界、基础、突破，其中融合成为最为显著的发展趋势。“互联网+”等概念的提出进一步表明了信息融合、产业融合、经济融合等多维度融合是时代发展的要求，是顺应大数据社会发展的必然。通过“互联网+”的互动融合，可实现行业的模式转变与效率提升。多源信息融合在大数据时代具有非常重要的价值与意义。通过多源信息融合，有利于进一步挖掘数据的价值，提升信息分析的作用；通过多源信息交叉印证，可以减少信息错误与疏漏，防止决策失误。可以说，在大数据时代，融合成为一个重要的理念、一个广泛渗透于各行业的现象、一种涉及多学科的新常态。本小节将简单介绍北京大学信息管理系化柏林关于大数据环境下多源信息融合的理论方法。

大数据环境下的多源信息融合问题研究需要从理论、方法以及技术等视角思考，多源信息融合理论方法体系如图1.10所示。该体系在理论层关注多元表示原理、相关性原理、意义构建等支撑理论；在方法层面涉及贝叶斯、D-S（DempsterShafer）证据理论、神经网络等算法；在技术层面既涉及线上线下数据融合、传感数据与社会数据融合等问题，也涉及唯一识别、异构加权等技术细节。

图1.10 多源信息融合理论方法体系

2.多源信息融合理论

新的渠道、新的载体不断产生新的数据类型；如何应对复杂多变的多源数据，成为大数据环境下一个重要的问题。想解决这个问题，就需要剖析信息融合的定义与内涵，进行多源信息融合的机制与机理的深入研究，探寻多源信息融合的本质与规律，从而解释多源信息融合的现象，指导多源信息融合的实践。

信息融合最早应用于军事领域，后来在传感器、地理空间等多个领域得到应用与发展。关于信息融合，主要有以下几种定义：

（1）信息融合是一种多层次、多方面的数据处理过程，对来自多个信息源的数据进行自动检测、关联、相关、估计及组合等处理。

（2）信息融合是研究利用各种有效方法把不同来源、不同时间点的信息自动或半自动地转换成一种能为人类或自动的决策提供有效支持的表示形式。

（3）信息融合是处理探测、互联、估计以及组合多源信息和数据的多层次多方面过程，以便获得准确的状态和身份估计，完整而及时的战场态势和威胁估计。

（4）多源数据融合是指由不同的用户、不同的来源渠道产生的，具有多种呈现形式（如数值型、文本型、图形图像、音频视频格式）且描述同一主题的数据为了共同的任务或目标融合到一起的过程。

这些研究反映了多源信息融合的含义或理念，系统的信息融合理论还不够完善，探寻并借鉴已有的理论，对多源信息融合的现象进行解释，已成为一项有重要意义的研究。这里从逻辑语义、语法结构以及形式表示三个方面进行阐述，在这个层面的理论基础主要包括多元表示原理、相关性原理以及意义建构理论等，图1.11所示为多源信息融合的支撑理论框架。不同的理论对多源信息融合有不同的支撑，多元表示更容易揭示多源信息的外部特征，是表现形式；相关性原理可以反映事物或事物要素及属性之间的关联关系，反映结构与关系；意义建构是在认知与语义的层面，反映内在逻辑。

图1.11 多源信息融合的支撑理论框架

（1）多元表示原理

多元表示是信息活动中的一种普遍现象，存在于信息活动的各个环节和各个阶段，这在互联网环境下更加明显，最为典型的就是大众标签；同样的内容，不同的人标记的标签就不一样。多元表示包括来自于不同认知行动者解读的在认知上不同的表示和来自于同一个认知行动者的在功能上不同的表示这两种形式。从认知意义上来讲，即便是同一组认知行动者在面对同一信息对象或情景时，其成员之间也可能会表现出认识上的不一致性或解释上的多样性。在众筹、众创时代，多元表示原理可以很好地揭示多源异构数据的多种表象，并寻找共同的语义内容与关联。

（2）相关性原理

大数据分析比传统的数据分析更加注重相关性。一方面，由于大数据具有数据规模体量大、多源异构等特点，进行简单、直接的相关性分析比复杂的因果分析具有更高的计算效率；另一方面，通过对大数据的相关性分析，可以直接发现一些有用的关联，如购物篮中的同被购买商品，足以提高经济效益，没必要非得弄清楚同被购买的原因。利用相关性，可以解决多源信息融合中的一些问题，包括主题相关、要素相关、任务相关及情境相关等。多源信息融合需要根据相关性原理，判定数据之间的相关关系与关联程度，以及数据源与任务情境之间的相关性。

（3）意义建构理论

布伦达·德尔文（Brenda Dervin）于1972年提出以用户为中心的意义建构理论，认为知识是主观且由个人建构而成的，而信息寻求是一种主观建构的活动，在线检索的过程是一连串互动、解决问题的过程，是一种解释沟通信息与意义之间关系的概念性工具。无论是认知层面的内在行为还是以过程为主体的外显行为，都允许个体在空间和时间上设计或建造自己的行为。意义建构的行为是种沟通行为，而信息恰恰就是人与人之间的最有效沟通的载体形式。信息的产生、组织、加工、标引、检索、传播与利用等过程都涉及用户的参与，而这些用户参与的行为与表现可以用意义建构来解释。根据皮亚杰的理论，人在与环境相互作用的过程中，不断建构和修正原有的知识结构，不同的知识结构所决定的信息形式与内容就会不同，而意义建构理论有助于揭示不同数据源对任务目标的支撑作用。

3.多源信息融合方法与技术

有关多源数据融合的方法与技术，学界已有一些研究。B. Khaleghia等人对多源数据融合进行了全面的论述，包括数据融合的概念、价值、难点以及现有的方法。R.R.Yage使用投票的方法解决数据之间的冲突，提出一种多源数据融合的框架。F.Naumann等人认为需要通过模式匹配、重复侦测、数据融合三个步骤来解决多源数据的不一致性及其数据冲突问题。陈科文等人则从数据处理、系统设计、融合模型、融合方法等方面梳理当前多源信息融合的关键问题与应用进展。A.Marc等人用重组认知集成方法实现智能应用的高层次融合，通过定义一个由原语、功能和模型构建的涉及语义、时态和地理空间等多维信息的集成框架，在现有的信息融合模型之间实现桥接，提出了一套实现统一的高层次融合智能应用程序的方法，通过案例研究演示了在知识发现和预测精度改进方面的应用。

多源数据融合涉及很多具体的方法与技术，但这些技术、方法都是零散的，针对某个具体问题或应用场景的，不足以应对当前对多源、异构、跨界信息进行融合的需求。为了满足多源信息融合的全面需求，就需要对这些方法、工具进行分析与试用，对各种技术方法的适用性、优缺点以及相互之间的关系等加以研究，从而形成多源信息融合的技术方法体系。

（1）多源信息融合表现形式

多源信息融合有多种来源与表现形式。在相关性、多元表示等原理的支撑下，多源信息融合有哪些形式与表征，也是重要的研究内容。在进行融合的过程中多源信息首先要转化为机器可读的数据，从数据的角度进行大规模的融合，其表现形式包括内部数据与外部数据的融合、历史数据与实时数据的融合、线上数据与线下数据的融合、传感数据与社会数据的融合。

①内部数据与外部数据的融合。从数据来源方面来讲，数据分为企业内部数据与外部数据。内部数据一般是高质量的、与业务逻辑紧密联系的；外部数据又包括可免费获取的（如互联网数据）以及购买或合作的数据。除了自身拥有的数据以外，在大数据环境下，还需要整合一些互联网数据。

②历史数据与实时数据融合。从时效性来看，经过多年的信息化，组织机构或企业已积累了相当数量的数据，新运行的系统与网络又不断产生新的数据，通过新数据可以监测实时状态，纵观历史数据可以发现规律从而实现对未来的预测。仅有实时数据无法探其规律；仅有历史数据也无法知其最新状态；要想更好地发挥数据价值，既要重视历史数据的累积与利用，又要不断获取鲜活的新数据。数据表示的是过去，但表达的是未来，只有把历史数据与实时数据融合起来，才能通过历史展望未来。

③线上数据与线下数据融合。随着越来越多的传统企业开始互联网化，在原有的线下数据基础上又产生了大量的线上数据，通过线上数据获取实时状态以及进一步完善线下数据，实现线上数据与线下数据的有效对接。过去传统行业的领域知识是靠在行业内不断摸爬滚打积累起来的，而互联网化之后的行业领域知识将是从海量的用户行为数据中分析和挖掘出来的。互联网产业促进线上与线下融合发展，为信息融合提供新途径和新模式。

④传感数据与社会数据融合。传感器、射频、监控器以及其他通信设备每天产生大量的数据，这些“硬数据”以物理信号的形式传到云端服务器上，一般具有良好定义的特征。社交网络、经济活动运行、政府信息管理又产生大量的社会数据，称之为“软数据”，是人为生成的或知识性的数据（如语言文字或图形符号）；这些数据带有很大的不确定性和模糊性。物理信号数据反映机器设备运行的状态，社会数据很好地反映了人们在社会运行中的各项活动。把这些信号数据与社会数据融合到一起，就可以更好地揭示自然规律与人类的各项活动。

（2）多源信息融合流程与技术

多源信息融合的实现包括数据级（信号级、像元级）融合、特征级融合和决策级融合等三个层次，这三个层次的融合分别是对原始数据、从中提取的特征信息和经过进一步评估或推理得到的局部决策信息进行融合。数据级和特征级融合属于低层次融合，而高层次的决策级融合涉及态势认识与评估、影响评估、融合过程优化等。H.V.Jagadish等人认为，在数据时代，很多人只注重“分析”和“建模”，而忽略了其他步骤的重要性，如数据的清洗与融合。

融合的过程中有些共性的流程，也存在一些差异化的过程。针对每一步过程，有多种解决问题的方法，不同的方法又有着不同的技术实现。因此，有必要通过梳理多源信息融合的流程，总结多源信息融合的方法并集成多源信息融合技术，对各种技术工具进行比对与试用，分析技术工具之间的共性与优缺点，探讨技术工具的集成与应用，形成多源信息融合的技术方法体系。

（3）多源信息融合算法

多源信息融合的算法包括简单算法、基于概率论的方法、基于模糊逻辑的方法、混合方法以及AI算法等。简单算法有等值融合法、加权平均法等。基于概率论的信息融合方法有贝叶斯方法、D-S证据理论等，其中贝叶斯方法又包括贝叶斯估计、贝叶斯滤波和贝叶斯推理网络等，而D-S证据理论是对概率论的推广，既可处理数据的不确定性，也能应对数据的多义性。基于模糊逻辑的信息融合方法，如模糊集、粗糙集等方法，这些方法在处理数据的模糊性、不完全性和不同粒度等方面具有一定的适应性和优势。混合方法包括模糊D-S证据理论、模糊粗糙集理论等，可以处理具有混合特性的数据。AI算法，如ANN，GA，ACO，深度学习算法等，可以处理不完善的数据，在处理数据的过程中不断学习与归纳，把不完善的数据融合为统一的完善的数据。

4.多源数据融合模型

数据融合技术就是利用计算机对获得信息在一定准则下加以自动分析和综合的信息处理技术，以完成所需决策和评估任务，主要包括对各类信息源所给出有用信息的采集、传输、综合、过滤、相关及合成，以便辅助人们进行态势/环境判定、规划、探测、验证。信息的来源多，数据格式类别的差异较大，都给数据处理带来了不便，故数据格式统一是进行数据处理的前提。

图1.12 多源数据融合模型

多源信息融合能够实现多源异构数据信息整合，对于充分利用信息资源、提高数据处理系统性能具有实用价值。作为数据级的多源数据融合模型结构如图1.12所示。多源数据经过数据清理、数据集成、数据变换，形成有效数据，通过数据处理形成了数据挖掘分析等处理工作所需的有效数据。

（1）数据清理是指去除源数据集中的噪声数据和无关数据，处理遗留数据和清洗脏数据，去除数据域的知识背景上的白噪声，考虑时间顺序和数据变化等；主要内容包括处理噪声数据、处理空值以及纠正不一致数据等。

（2）数据集成是将多文件或多数据库运行环境中的异构数据进行合并处理，将多个数据源中的数据结合起来存放在一个一致的数据存储区中。

（3）数据变换是将数据变换成统一的适合处理的形式，主要包括平滑、聚集、属性构造、数据泛化和规范化等内容。

1.7.7 空间信息大数据

地球空间信息科学是测绘遥感科学与信息科学技术的交叉、渗透与融合，通过多平台、多尺度、多分辨率、多时相的空、天、地对地观测、感知和认知手段改善和提高人们观察地球的能力，为人们全面精确判断与决策提供大量可靠的时空信息。地球空间信息科学已在过去20多年的数字地球和数字城市建设中发挥了重要作用。当前，人类正进入建设智慧地球和智慧城市的大数据时代，这将对地球空间信息学提出新的要求，使之具有新的时代特点。这些特点可以概括为以下七个方面：

（1）无所不在。在大数据时代，地球空间信息科学的数据获取将从空、天、地专用传感器扩展到物联网中上亿个无所不在的非专用传感器。例如智能手机，它就是一个具有通信、导航、定位、摄影、摄像和传输功能的时空数据传感器；又如城市中具有空间位置的上千万个视频传感器，它能提供PB和EB级 ^[1] 连续图像。这些传感器将显著提高地球空间信息科学的数据获取能力。另一方面，地球空间信息科学的应用也是无所不在的，它已从专业用户扩大到全球大众用户。

（2）多维动态。大数据时代无所不在的传感器网以日、时、分、秒甚至毫秒计产生时空数据，使得人们能以前所未有的速度获得多维动态数据来描述和研究地球上的各种实体和人类活动。智慧城市需要从室外到室内、从地上到地下的真三维高精度建模，基于时空动态数据的感知、分析、认知和变化检测在人类社会可持续发展中将发挥越来越大的作用。通过这些研究，地球空间信息科学将对PR和AI做出更大的贡献。

（3）互联网+网络化。在越来越强大的天地一体化网络通信技术和云计算技术支持下，地球空间信息科学的天、地、空专用传感器将完全融入智慧地球的物联网中，形成互联网+空间信息系统，将地球空间信息科学从专业应用向大众化应用扩展。原先分散的、各自独立进行的数据处理、信息提取和知识发现等将在网络上由云计算为用户完成。目前，正在研究中的遥感云和室内外一体化高精度导航定位云就是其中的例子。

（4）全自动与实时化。在网络化、大数据和云计算的支持下，地球空间信息科学有可能利用PR和AI的新成果来全自动和实时地满足军民应急响应和诸如飞机、汽车自动驾驶等实时的用户要求。目前正在执行中的国家自然科学基金重大项目“空间信息网络”，就是研究面向应急任务的空天信息资源自动组网、通信传输、在轨处理和实时服务的理论和关键技术。遵照“一星多用、多星组网、多网融合”的原则，由若干颗（60~80颗）同时具有遥感、导航、通讯功能的低轨卫星组成的天基网与现有地面互联网、移动网整体集成，与北斗系统密切协同，实现对全球表面分米级空间分辨率、小时级时间分辨率的影像和视频数据采集以及优于米级精度的实时导航定位服务。在时空大数据、云计算和天基信息服务智能终端支持下，通过天地通信网络全球无缝的互联互通，实时地为国民经济各部门、各行业和广大手机用户提供快速、精确、智能化的定位、导航、授时、遥感及通信（positioning，navigation，timing，remote sensing，communication，PNTRC）服务，构建产业化运营的、军民深度融合的我国天基信息实时服务系统。

（5）从感知到认知。长期以来，地球空间信息科学具有较强的测量、定位、目标感知能力，但往往缺乏认知能力。在大数据时代，通过对时空大数据的处理、分析、融合和挖掘，可以大大地提高空间认知能力。例如，利用多时相夜光遥感卫星数据可以对人类社会活动如城镇化、经济发展、战争与和平的规律进行空间认知。又如，利用智能手机中连续记录的位置数据、多媒体数据和电子地图数据，可以研究手机持有人的行为学和心理学。地球空间信息科学的空间认知将对脑认知和AI科学做出应有的贡献。

（6）众包与自发地理信息。在大数据时代，基于无所不在的非专用时空数据传感器（如智能手机）和互联网云计算技术，通过网上众包方式，将会产生大量的自发地理信息来丰富时空信息资源，形成人人都是地球空间信息员的新局面，但因其非专业特点，使得所提供的数据具有较大的噪音、缺失、不一致、歧义等问题，造成数据有较大的不确定性，需要自动进行数据清理、归化、融合与挖掘。当然，如能在网上提供更多的智能软件和开发工具，将会产生更好的效果。

（7）面向服务。地球空间信息科学是一门面向经济建设、国防建设和大众民生应用需求的服务科学。它需要从理解用户的自然语言入手，搜索可用来回答用户需求的数据，优选提取信息和知识的工具，形成合理的数据流与服务链，通过网络通信的聚焦服务方式，将有用的信息和知识及时送达给用户。从这重意义上看，地球空间信息服务的最高标准是在规定的时间将所需位置上的正确数据/信息/知识送到需要的人手上。面向任务的地球空间信息聚焦服务将长期以来数据导引的产品制作和分发模式转变成需求导引的聚焦服务模式，从而解决目前对地观测数据的供需矛盾，实现服务代替产品，以适应大数据时代的需求。

空间数据具有数据体量大、多源、多时相、有价值等鲜明的大数据特征，其获取手段多种多样，如全球导航卫星、卫星重力探测、航空航天遥感等技术，这些技术手段获取的空间数据格式不一、时相不一，导致了空间数据的来源多样、结构复杂。面对大数据的到来，目前存在体量大、速度快、模态多样和真伪难辨等问题，很难有效地从大数据中挖掘出它的巨大价值，从而形成数据海量、信息缺失、知识难觅的局面。因此，需要研究时空大数据多维关联描述的形式化表达、关联关系动态建模与多尺度关联分析方法、时空大数据协同计算与重构所提供的快速准确的面向任务的关联约束和空间大数据挖掘方法。

与此同时，空间数据是智慧地球的基础信息，智慧地球功能的绝大部分将以空间数据为基础。现在空间数据已广泛应用于社会各行业、各部门，如城市规划、交通、银行、航空航天等。随着科学和社会的发展，人们已经越来越认识到空间数据对于社会经济的发展、人们生活水平提高的重要性，这也加快了人们获取和应用空间数据的步伐。因此，在大数据时代的潮流下，空间大数据、时空大数据、遥感大数据、GIS大数据、地学大数据等大数据概念和技术相继提出。如何利用大数据技术，如大数据存储与管理、大数据计算模式及大数据可视化分析，去解决多源、多分辨率、多时相、多尺度的空间大数据面临的问题和挑战，是空间信息智能处理的研究重点。

大数据分析挖掘是指对规模巨大的数据进行分析挖掘。大数据可以概括为5个“V”——数据量（volume）、速度（velocity）、类型（variety）、价值（value）、真实性（veracity）。大数据作为时下信息技术行业最火热的词汇，随之而来的有数据仓库、数据安全、数据分析、数据挖掘等，这些词围绕大数据的商业价值的利用而逐渐成为行业人士争相追捧的研究热点与利润焦点。大数据挖掘分析常和云计算联系到一起，因为实时的大型数据集分析需要像Map Reduce一样的框架向数十、数百或甚至数千的电脑分配工作，大数据技术架构示意图如图1.13所示。随着智慧城市的建设和应用，无所不在的亿万个各类传感器将产生越来越多的数据，数据量级将从现在的GB级和TB级逐步增长到PB级、EB级甚至ZB级 ^[2] 。如果能透彻分析这些结构复杂、数量庞大的数据，以云端运算整合分析，便能快速地将之转化成有价值的信息，从中探索和挖掘出自然和社会的变化规律，人们的生活及行为，社会的潮流、思维和舆论趋向，推断市场对产品、服务甚至政策等各方面的反应。总之，利用大规模有效数据分析预测建模、可视化和发现新规律的时代就要到来。

图1.13 大数据技术架构示意图（彩色图见插页）

大数据分析挖掘工具通常包括两类：一是用于展现分析的前端开源工具，如Jasper Soft，Pentaho，Spagobi，Openiu以及Birt等；二是用于展现分析商用分析工具，如Style Intelligence，Rapid Miner Radoop，Cognos，BO，Microsoft，Oracle，Microstrategy，Qlik View以及Tableau。国内也有商业数据处理（business data processing，BDP），如国云数据（大数据魔镜）、思迈特以及FineBI等。

大数据分析挖掘数据仓库有Teradata Aster Data，EMC Green Plum，HP Vertica等；大数据分析数据集市有QlikView，Tableau，Style Intelligence等。

大数据分析挖掘步骤通常包括以下六个基本方面：

（1）可视化分析（analytic visualization）。不管是对数据分析专家，还是对普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观地展示数据，让数据自己说话，让观众听到结果。

（2）数据挖掘算法（data mining algorithm）。可视化是给人看的，数据挖掘是给机器“看”的。集群、分割、孤立点分析等，还有些其他的算法，可深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。

（3）预测性分析能力（predictive analytic capabilitiy）。数据挖掘可以让分析员更好地理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

（4）语义引擎（semantic engine）。由于非结构化数据的多样性带来了数据分析的新挑战，故需要一系列的工具去解析、提取及分析数据。语义引擎被设计成能够从“文档”中智能提取信息。

（5）数据质量和数据管理（data quality and master data management）。数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具，对数据进行处理可以保证得到高质量的分析结果。

（6）数据存储与数据仓库（data storaged and data warehouse）。数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在商业智能系统的设计中，数据仓库的构建是关键，是商业智能系统的基础，承担对业务系统数据整合的任务，为商业智能系统提供数据抽取、转换和加载（extract-transformation-load，ETL），并按主题对数据进行查询和访问，为联机数据分析和数据挖掘提供数据平台。

大数据分析与数据挖掘的本质区别如表1.1所示：

表1.1 大数据分析与数据挖掘的本质区别

大数据的获取、计算理论与高效算法的主要研究方向包括：大数据的复杂性与可计算性理论及简约计算理论，大数据内容共享、安全保障与隐私保护，低能耗、高效大数据获取机制与器件技术，异质跨媒体大数据编码压缩方法，大数据环境下的高效存储访问方法，大数据的关联分析与价值挖掘算法，面向大数据的深度学习理论与方法，大数据的模型表征与可视化技术，大数据分析理解的算法工具与开放软件平台，存储与计算一体化的新型系统体系结构与技术，面向大数据的未来计算机系统架构与模型等。

[1] 1PB=2 ⁵⁰ Byte（字节），1EB=1024PB=2 ⁶⁰ Byte.

[2] 1GB=2 ^{30 Byte，1TB=2} ⁴⁰ Byte，1ZB=2 ⁷⁰ Byte.