语言和文字是人们表达思想、交流信息的工具。它促进了人类的文明及社会的进步。人类语言和文字是人类知识表示的最优秀、最通用的方法,但人类语言和文字的知识表示方法并不适合于计算机处理。
智能科学研究的目的是建立一个能模拟人类智能行为的系统,但知识是一切智能行为的基础,因此首先要研究知识表示方法。只有这样才能把知识存储到计算机中,供求解现实问题使用。
对知识表示方法的研究,离不开对知识的研究与认识。人们在对智能系统的研究及建立过程中,结合具体研究提出了一些知识表示方法。知识表示方法可分为如下两大类:符号表示法和连接机制表示法。
符号表示法是用各种包含具体含义的符号,以各种不同的方式和顺序组合起来表示知识的一类方法。它主要用来表示逻辑性知识,目前用得较多的知识表示方法有:一阶谓词逻辑表示法、产生式表示法、面向对象表示法、框架表示法、语义网络表示法及知识图谱表示法等。
连接机制表示法是用神经网络表示知识的一种方法。它把各种物理对象以不同的方式及顺序连接起来,并在其间互相传递及加工各种包含具体意义的信息,以此来表示相关的概念及知识。相对于符号表示法而言,连接机制表示法是一种隐式的知识表示方法。这里,知识并不像在产生式系统中表示为若干条规则,而是将某个问题的若干知识在同一个网络中表示。因此,特别适用于表示各种形象性的知识。
机器感知是使机器(计算机)具有类似于人的感知能力,其中以机器视觉(Machine Vision)与机器听觉为主。机器视觉是让机器能够识别并理解文字、图像、场景等;机器听觉是让机器能识别并理解语言、声响等。
机器感知是机器获取外部信息的基本途径,是使机器具有智能不可缺少的组成部分,正如人的智能离不开感知一样,为了使机器具有感知能力,需要为它配置上能“听”、会“看”的感觉器官。对此,人工智能中形成了两个专门的研究领域,即模式识别与自然语言理解。
机器思维是指对通过感知得来的外部信息及机器内部的各种工作信息进行有目的的处理。正如人的智能来自大脑的思维活动一样,机器智能主要是通过机器思维实现的。因此,机器思维是智能科学研究中最重要、最关键的部分。它使机器能模拟人类的思维活动,能像人那样既可以进行逻辑思维,又可以进行形象思维。
知识是智能的基础,要使计算机有智能,就必须使它有知识。人们可以把有关知识归纳、整理在一起,并用计算机可接受、处理的方式输入计算机中,使计算机具有知识。这种方法不能及时地更新知识,特别是计算机不能适应环境的变化。为了使计算机具有真正的智能,必须使计算机像人类那样,具有获得新知识、学习新技巧并在实践中不断完善、改进的能力,实现自我完善。
机器学习(Machine Learning)就是研究如何使计算机具有类似于人的学习能力,使它能通过学习自动地获取知识。计算机可以直接向书本学习,通过与人谈话学习,通过对环境的观察学习,并在实践中实现自我完善。
机器学习是一个难度较大的研究领域,它与脑科学、神经心理学、计算机视觉、计算机听觉等都有密切联系,依赖于这些学科的共同发展。因此,经过近些年的研究,虽然取得了很大的进展,提出了很多学习方法,但并未从根本上解决问题。
与人的行为能力相对应,机器行为主要是指计算机的表达能力,即“说”“写”“画”等能力。对于智能机器人,它还应具有人的四肢功能,即能走路、能取物、能操作等。
目前智能科学的主要学派有下列3家。
① 符号主义,又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统假设和有限合理性原理。
② 连接主义,又称为仿生学派或生理学派,其原理主要为神经网络及神经网络间的连接机制与学习算法。
③ 行为主义,又称为进化主义,其原理为控制论及感知动作型控制系统。
各学派对智能科学发展历史具有不同的看法。
符号主义认为智能源于数理逻辑。数理逻辑从19世纪末起获迅速发展;到20世纪30年代开始用于描述智能行为。计算机出现后,又在计算机上实现了逻辑演绎系统。其有代表性的成果为启发式程序逻辑理论家(Logic Theorist, LT),证明了38条数学定理,表明了可以应用计算机研究人的思维过程,模拟人类智能活动。正是这些符号主义者,早在1956年首先采用“人工智能”这个术语,后来又发展了启发式算法→专家系统→知识工程理论与技术,并在20世纪80年代取得很大发展。符号主义为智能科学的发展做出重要贡献,尤其是专家系统的成功开发与应用,对于人工智能走向工程应用和实现理论联系实际具有特别重要的意义。在智能科学的其他学派出现之后,符号主义仍然是人工智能的主流学派。
连接主义认为智能源于仿生学,特别是人脑模型的研究。它的代表性成果是1943年由生理学家麦卡洛克(Warren McCulloch)和数理逻辑学家皮茨(Walter Pitts)创立的脑模型,即 MP 模型,开创了用电子装置模仿人脑结构和功能的新途径。它以神经元开始进而研究神经网络模型和脑模型,开辟了智能科学的又一发展道路。20世纪60年代至20世纪70年代,连接主义,尤其是对以感知机(Perceptron)为代表的脑模型的研究出现热潮。由于当时的理论模型、生物原型和技术条件的限制,脑模型研究在20世纪70年代后期至20世纪80年代初期落入低潮。直到Hopfield教授在1982年和1984年发表两篇重要论文,提出用硬件模拟神经网络后,连接主义重新抬头。1986年,鲁梅尔哈特(Rumelhart)等提出多层网络中的反向传播(BP)算法。此后,连接主义势头大振,从模型到算法,从理论分析到工程实现,为神经网络计算机走向市场打下基础。
行为主义认为智能源于控制论。控制论思想早在20世纪40年代至20世纪50年代就成为时代思潮的重要部分,影响了早期的智能科学工作者。维纳(Winner)和麦克洛(McCloe)等提出的控制论和自组织系统以及钱学森等提出的工程控制论和生物控制论,影响了许多领域。控制论把神经系统的工作原理与信息理论、控制理论、逻辑以及计算机联系起来。早期的研究工作重点是模拟人在控制过程中的智能行为和作用,如对自寻优、自适应、自校正、自镇定、自组织和自学习等控制论系统的研究,并进行“控制论动物”的研制。到20世纪60年代至20世纪70年代,上述这些控制论系统的研究取得一定进展,播下智能控制和智能机器人的种子,并在20世纪80年代诞生了智能控制和智能机器人系统。行为主义是20世纪末才以人工智能新学派的面孔出现的,引起许多人的兴趣。这一学派的代表作首推布鲁克斯(Brooks)的六足行走机器人,它被看作新一代的“控制论动物”,是一个基于感知−动作模式的模拟昆虫行为的控制系统。
以上3个学派将长期共存,取长补短,并走向融合和集成,为智能科学的发展做出贡献。
人工智能各学派对于AI的基本理论问题,如定义、基础、核心、要素、认知过程、学科体系以及人工智能与人类智能的关系等,均有不同观点。
① 符号主义
符号主义认为人的认知基元是符号,而且认知过程即符号操作过程。它认为人是一个物理符号系统,计算机也是一个物理符号系统,因此,人们能够用计算机来模拟人的智能行为,即用计算机的符号操作来模拟人的认知过程。也就是说,人的思维是可操作的。它还认为,知识是信息的一种形式,是构成智能的基础。人工智能的核心问题是知识表示、知识推理和知识运用。知识可用符号表示,也可用符号进行推理,因而有可能建立起基于知识的人类智能和机器智能的统一理论体系。
② 连接主义
连接主义认为人的思维基元是神经元,而不是符号处理过程。它对物理符号系统假设持反对意见,认为人脑不同于电脑,并提出连接主义的大脑工作模式,用于取代符号操作的电脑工作模式。
③ 行为主义
行为主义认为智能取决于感知和行动(所以被称为行为主义),提出智能行为的“感知−动作”模式。行为主义者认为智能不需要知识、不需要表示、不需要推理;人工智能可以像人类智能一样逐步进化(所以称为进化主义);智能行为只能在现实世界中与周围环境交互作用而表现出来。行为主义还认为符号主义(还包括连接主义)对真实世界客观事物的描述及其智能行为工作模式是过于简化的抽象,因而是不能真实地反映客观存在的。
不同人工智能学派对人工智能的研究方法问题也有不同的看法。这些问题涉及人工智能是否一定采用模拟人的智能的方法?若要模拟又该如何模拟?对结构模拟和行为模拟、感知思维和行为、认知和学习以及逻辑思维和形象思维等问题是否应分离研究?是否有必要建立人工智能的统一理论系统?若有,又应以什么方法为基础?
① 符号主义
符号主义认为人工智能的研究方法应为功能模拟方法。通过分析人类认知系统所具备的功能和机能,用计算机模拟这些功能,实现人工智能。符号主义力图用数学逻辑方法来建立人工智能的统一理论体系,但遇到不少暂时无法解决的困难。
② 连接主义
连接主义主张人工智能应着重于结构模拟,即模拟人的生理神经网络结构,并认为功能、结构和智能行为是密切相关的,不同的结构表现出不同的功能和行为。目前已经提出多种人工神经网络结构和众多学习算法。
③ 行为主义
行为主义认为人工智能的研究方法应采用行为模拟方法,也认为功能、结构和智能行为是不可分的,不同行为表现出不同功能和不同控制结构。
空间信息智能处理是地球空间信息科学与人工智能的交叉与融合,属于遥感科学、信息科学、认知科学的学科交叉,代表了地球空间信息科学的重要发展方向。从空间信息的获取到空间信息的应用和可视化都可以借助人工智能技术来提高空间信息的获取效率和应用效果。
智能空间信息处理是指利用人工智能的理论和方法,利用计算智能方法,如神经计算、模糊计算、进化计算等方法实现空间信息的智能化处理。
目前,空间信息获取已经相对成熟,在许多遥感数据的获取上加入了人工智能(AI)的帮助,但人工智能的介入很少。更为重要的是,对于已经获取到的空间信息,如何快速地挖掘它的有用信息,以及如何方便研究者读取和分析图像。地理空间信息系统包含四大环节:信息源、信息获取、信息处理和信息应用,可以在信息获取和信息处理两个环节中添加人工智能手段,多学科多领域交叉融合,从而达到智能化获取信息和智能化处理信息的目的。
例如,随着图像处理技术的日益发展,遥感图像智能处理技术受到人们的重视,遥感图像的解译、分类成为当前研究的热点问题。最原始的遥感图像分类是研究人员根据自己的经验知识,直接进行目标识别,该方法受人为干扰因素大,且分辨率低,工作量大。随着计算机技术的发展,计算机自动分类代替了人工分类,大大提高了遥感图像的分类精度和效率。
空间信息处理方法复杂,手段烦琐,信息量大,数据维度复杂,因此人工读取相对困难。如果能将人工智能用于空间信息处理,利用机器自动进行识别,势必会是空间信息领域一个巨大的突破。近年来,随着学科交叉融合现象的普及,人工智能和空间信息有了一定的融合交叉研究,在遥感图像智能分类、智能处理,无人机遥感获取图像信息等领域取得了一定的成就。许多国内外企业和研究机构致力于利用人工智能代替人类处理大量的空间信息,从而提高空间信息利用率和处理效率。目前,无人机遥感、机器人探测乃至利用人工智能进行图像识别、图像分类和图像处理,成为研究者的关注点,基于决策树算法、人工神经网络、支持向量机、蚁群算法、遗传算法等适用于空间信息处理的智能方法,以及基于目标检测、场景分类、语义分割、变化检测的智能遥感卫星在轨处理算法等逐渐被专家开发出来并投入使用。表1-1给出了常见空间信息智能处理算法及其特点。
表1-1 常见空间信息智能处理算法及其特点
谷歌已将人工智能模块加入其谷歌地球引擎(Google Earth Engine),用户可利用谷歌人工智能平台和云存储处理影像,并借助其深度学习框架TensorFlow完成数据智能化处理和分析。例如,谷歌利用Landsat影像对1984—2018年的地球表面变化信息进行可视化,并进行变化分析。微软发布了“地球人工智能”(AI for Earth)项目,应用于全球农业、水资源管理、生物多样性、气候监测等领域。微软与 Esri 合作将 ArcGIS Pro 内核加入微软云平台Azure 上,发布了地理空间智能数据科学虚拟机(DSVM),把人工智能、云技术和基础架构、地理空间分析相结合,服务于更加智能的地理空间分析、数据可视化等应用。超图公司的地理信息智能框架包括4个层次:地理空间可视化、地理空间决策、地理空间设计和地理空间控制。金字塔的复杂性从底部向上增加,而成熟度在降低。超图公司的 GIS软件与阿里巴巴新一代的数据库 POLARDB对接融合,完成兼容性认证,构建云原生时空管理平台联合解决方案,并推出“云原生数据库+云原生GIS”平台,通过人工智能提升地理信息服务能力。
空间智能技术作为传统地理信息技术在智能化方向的重要拓展,不仅促进传统地理信息产业的转型升级,也在开拓新的智能化应用领域。地理空间智能的研究进展可以分为地理空间感知(Perception)智能、地理空间认知(Cognition)智能及地理空间决策(Decision)智能3个方面,三者层层递进(如图1-1所示)。
图1-1 空间智能科学研究进展:数据与应用
地理空间智能研究的重点,集中在地理空间感知智能阶段,主要实现空间目标提取和模式识别,包括实现影像分类、语义分割、地物提取、实例分割等任务,与计算机视觉的任务相对应。计算机视觉针对二维或三维感知数据进行解译与重建;而地理空间智能针对特定的具有地理属性的数据,完成与测绘地理信息需求相关的任务。
(1)同源遥感信息感知。在同源遥感信息感知方面,地理空间感知智能的研究主要集中在土地覆盖/土地利用分类、城市功能区分类方面,方法主要是全连接神经网络实现逐像素的分类。为使网络容易训练或记忆性更强,研究者引入局部和全局注意力机制、残差神经网络等思想。空间目标提取的研究内容主要包括地理要素提取(如建筑物、道路网等)和关键感兴趣目标提取(如飞机、舰船、野生动物等)。在配准的遥感影像间或影像序列间检测地物变化,主要采用孪生神经网络作为编码器,提取出两个时相间的特征变化。激光点云智能方法主要分为传统机器学习方法和基于多层感知机的语义分割两类。前者通过人工提取点云几何特征,并采用机器学习算法实施分类;后者直接以点云作为输入,以多层感知机作为模型主干,以加权交叉信息熵作为代价函数,输出每个激光点的标签概率。孪生神经网络也被用于点云变化检测。雷达影像处理方面的研究典型包括基于数学形态学和k均值聚簇的雷达影像形变监测、基于全连接神经网络实数权重核函数的复数域影像分割等。
(2)异源遥感信息融合。为克服单一数据源的缺陷,很多工作研究对配准的光学影像和 DSM 进行融合分割。例如,利用孪生神经网络从不同模态的雷达影像和航空影像中检测变化;以L 2 -Net为模型主干对无人机影像和卫星影像实施配准。在视频序列影像分割中,通过全连接的条件随机场(CRF)将短期时间信息融入结构化场景信息,用密集光流提取视频序列的动态信息。
地理空间认知智能的研究内容主要包括,利用空间数据挖掘和智能分析技术,从空间数据中挖掘出隐藏的模式关系和趋势。基于人工智能的空间数据挖掘研究展现了较强的知识发现能力,在关联分析、聚类分析、异常检测方面取得了进展。例如,利用空间多准则决策分析,基于遥感数据和地理信息系统,建立包含城区扩张、城市可用土地、土地利用变化的数据库,为城市规划提供决策;利用街景影像分析市内出租车的轨迹模式,在地理空间和人类活动特征间建立联系;通过 Voronoi 邻域分割和反向邻近加权进行空间自相关定量描述,分析地理文本与网络地图的相关性;基于社交媒体数据的智能时空分析,被用于2014年上海外滩踩踏事件社会舆情分析、居民行为模式分析、人群分布分析等。
在突发事件和应急救灾中,受灾损毁建筑物影像分类方法包括,基于梯度方向直方图特征和Gabor小波特征的分类、视觉词袋模型法、融合光谱特征和点云特征的多核学习法等。例如,采用最邻近防水模型(HAND)和伪随机森林法预测洪水区域;泊松回归和帝国竞争算法被用于基于卫星影像的山火位置预测;残差神经网络被用于滑坡位置分析。
在全球环境监测方面,利用深度学习监测城市大气污染物浓度并预测污染态势;利用时空回归克里金法对城市NO 2 的浓度进行建模。另外,深度学习模型也被用于极地冰川崩裂面监测、全球干旱区植被面积评估等。
人工智能方法也在精准农业和生态学中得到利用,如城市植被覆盖普查、农作物生长态势监测、植被健康状况分析、植被几何结构和功能属性测算等。在公共卫生与健康分析中,地理空间智能对人类活动、地理位置信息及环境状况进行建模,广泛应用于环境卫生、流行病学、遗传学、行为科学等领域。
地理空间决策智能的研究进展包括空间态势建模、智能预测,其位于 GeoAI技术环节顶端,直接服务于多样化的地理信息产业应用需求。地理空间智能通过对商业数据、运营数据的建模和分析,为销售额预测、消费者需求预测、客户分布分析、产业链选址提供支持。例如,采用PDBSCAN进行空间聚类,根据游客旅游历史和当前搜索文本进行个性化的线路推荐;使用基于GIS的模糊多准测逐层分析方法为伊斯坦布尔城区建立消防站提供选址意见。在智能交通与自动驾驶方面,GeoAI 可以进行基于注意力机制的车流监控、实时跟踪、出行线路规划、交通状况监控与拥堵疏导。
三维场景智能重建的研究主要集中在单像深度恢复、基于室内点云和轨迹的室内建模、含有语义信息的三维地图重建等。利用室内点云和轨迹,通过可视化分析和物理结构分析分割出单个房间的点云,通过基于图割方法的能量优化解决单个房间建模问题。使用ORB-SLAM2算法对室内环境进行实时三维重建,融合目标检测方法YOLOv3进行关键帧标注,生成带有语义信息的三维语义地图。