购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 机器学习概述

机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识。它使用计算机作为工具并致力于模拟或实现人类的学习方式,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。

一般来说机器学习有下面几种定义:

● 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。

● 机器学习是对能通过经验自动改进的计算机算法的研究。

● 机器学习是用数据或以往的经验来优化计算机程序的性能标准。

1.1.1 机器学习的前世今生

机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。2010年的图灵奖获得者为哈佛大学的Leslie Valiant教授,其获奖原因之一是建立了概率近似正确(Probably Approximately Correct, PAC)学习理论;2011年的图灵奖获得者为加州大学洛杉矶分校的Judea Pearll教授,其主要贡献建立了以概率统计为理论基础的人工智能方法。这些研究成果都促进了机器学习的发展和繁荣。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征、最前沿的研究领域之一。自20世纪80年代以来,机器学习作为实现人工智能的途径,在人工智能界引起了广泛的兴趣,特别是近十几年来,机器学习领域的研究工作发展很快,它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。

机器学习实际上已经存在了几十年,或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习被广泛使用的工具和基础。从1950年(艾伦·图灵提议建立一个学习机器)到21世纪初(有深度学习的实际应用以及最近的进展,比如2012年的AlexNet),机器学习有了很大的进展。

从20世纪50年代研究机器学习以来,不同时期的研究途径和目标并不相同,可以划分为四个阶段。

第一阶段是20世纪50年代中叶到60年代中叶,这个时期主要研究“有无知识的学习”。这类方法主要是研究系统的执行能力。这个时期,主要通过对机器的环境及其相应性能参数的改变来检测系统所反馈的数据,就好比给系统一个程序,通过改变程序的自由空间作用,让系统受到程序的影响从而改变自身的组织,最后这个系统将会选择一个最优的环境生存。在这个时期最具有代表性的研究就是Samuet的下棋程序。但这种机器学习的方法还远远不能满足人类的需要。

第二阶段从20世纪60年代中叶到70年代中叶,这个时期主要研究将各个领域的知识植入到系统里,目的是通过机器模拟人类学习的过程。同时还采用了图结构及其逻辑结构方面的知识进行系统描述。在这一研究阶段,主要是用各种符号来表示机器语言。研究人员在进行实验时意识到学习是一个长期的过程,从系统环境中无法学到更加深入的知识,因此研究人员将各专家学者的知识加入到系统里,经过实践证明这种方法取得了一定的成效。在这一阶段具有代表性的工作有Hayes-Roth和Winson的结构学习系统方法。

第三阶段从20世纪70年代中叶到80年代中叶,称为复兴时期。在此期间,人们从学习单个概念扩展到学习多个概念,探索不同的学习策略和学习方法,且在本阶段已开始把学习系统与各种应用结合起来,并取得很大的成功。同时,专家系统在知识获取方面的需求也极大地刺激了机器学习的研究和发展。在出现第一个专家学习系统之后,示例归纳学习系统成为研究的主流,自动知识获取成为机器学习应用的研究目标。1980年,在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。此后,机器学习开始得到大量的应用。1984年,Simon等20多位人工智能专家共同撰文编写的 Machine Learning 文集第二卷出版,国际性杂志 Machine Learning 创刊,更加显示出机器学习突飞猛进的发展趋势。这一阶段代表性的工作有Mostow的指导式学习、Lenat的数学概念发现程序、Langley的BACON程序及其改进程序。

第四阶段从20世纪80年代中叶至今,是机器学习的最新阶段。这个时期的机器学习具有如下特点:

● 机器学习已成为新的学科,综合应用了心理学、生物学、神经生理学、数学、自动化和计算机科学等形成了机器学习理论基础。

● 融合了各种学习方法,且形式多样的集成学习系统研究正在兴起。

● 机器学习与人工智能各种基础问题的统一性观点正在形成。

● 各种学习方法的应用范围不断扩大,部分应用研究成果已转化为产品。

● 与机器学习有关的学术活动空前活跃。

1.1.2 机器学习的研究现状与方向

机器学习历经70多年的曲折发展,以深度学习为代表借鉴人脑的多分层结构、神经元的连接交互信息的逐层分析处理机制,自适应、自学习的强大并行信息处理能力,在很多方面取得了突破性进展,其中最有代表性的是图像识别领域。

而进入21世纪90年代,多浅层机器学习模型相继问世,诸如逻辑回归、支持向量机等,这些机器学习算法的共性是数学模型为凸代价函数的最优化问题,理论分析相对简单,容易从训练样本中学习到内在模式,来完成对象识别、人物分配等初级智能工作。

2006年,机器学习领域的泰斗Geoffrey Hinton和他的学生Ruslan Salakhutdinov发表文章,提出了深度学习模型。主要论点包括:多个隐层的人工神经网络具有良好的特征学习能力;通过逐层初始化来克服训练的难度,实现网络整体调优。这个模型的提出,开启了深度网络机器学习的新时代。2012年,Hinton研究团队采用深度学习模型,获得了计算机视觉领域最具有影响力的ImageNet比赛的冠军,标志着深度学习开始进入机器学习的核心领域。

人工智能、机器学习、深度学习的关系如图1.1所示。

图1.1

深度学习近年来在多个领域取得了令人赞叹的成绩,推出了一批成功的商业应用,诸如谷歌翻译、苹果语音工具Siri、微软的个人语音助手Cortana、蚂蚁金服的Smile to Pay(扫脸技术)。

特别是2016年3月,谷歌的AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。2017年10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGo Zero,它能在无任何人类输入的条件下,从空白状态学起,自我训练的时间仅为3天,自我对弈的棋局数量为490万盘,能以100:0的战绩击败前辈。

1.1.3 机器学习之美——数据的可视化

一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究方向主要分为两类:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。

但是,无论是数据的获取还是对结果的预测分析,机器学习处理与输出的都是冷冰冰的数据。虽然对于机器学习来说这是正常的过程,但是作为数据的最终用户,这并不是一个好的分析和解读方式。而数据可视化,是关于数据视觉表现形式的科学技术的研究。这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。

数据可视化是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性、动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

数据可视化是当下十分火热的数据应用技术,很多新锐的数据分析工具都注重开发数据可视化的功能模块。数据可视化及其技术研究和应用开发,已经从根本上改变了我们对数据和数据分析工具的理解,数据可视化对数据发展的影响广泛而深入。

可视化是将数据、信息和知识转化为一种形象化的视觉形式的过程,显然更加侧重人对数据、信息和知识自上而下的加工处理过程。一个好的可视化,能够带给人们的不仅仅是视觉上的冲击,还能够揭示蕴含在数据中的规律和道理。

数据可视化的功能主要体现在两个方面:一是数据展示需求,二是数据分析需求。数据展示很好理解,就是将已知的数据或数据分析结果,通过可视化图表的方式进行展示,多用于研究、报告、公告平台等场所。配合现在流行的大屏展示技术,数据展示的方式也越来越为人所接受和欢迎。

而在数据分析方面,在大数据分析工具中,数据的最终结果是图表形式的,除了可以进行展示,还可以继续进行挖掘分析,即基于图表的“二次分析”,对数据的深层次挖掘。比如,使用“大数据魔镜”工具,用户可以基于可视化分析台和仪表盘进行“上卷下钻”的数据挖掘和关联分析。

相对于繁杂的数据,图表不仅能更加简洁地表述信息,还适用于大量信息的描绘,即对大量数据的承载。这也是数据可视化成为大数据分析工具不可或缺的功能模块的主要原因。

1.可视化效果对数据可视化的影响

可视化效果指的是色彩和图形样式,是直接呈现在人们眼前的“可视化效果”。在信息可视化通过造型元素明确传达信息及叙述的基础上,把握好视觉元素中色彩的运用,使图形变得更加生动,信息表达得更加明确。

2.数据可视化的分类

数据可视化包含三个分支:科学可视化(Scientific Visualization, Sci Vis)、信息可视化(Information Visualization, Info Vis),以及后来演化出的可视分析(Visual Analytics Science and Technology, AST),这个从IEEE VIS会议的分类中可以看出来。

将数据可视化按照应用来分,可视化有多个目标:

● 有效呈现重要特征。

● 揭示客观规律。

● 辅助理解事物概念和过程。

● 对模拟和测量进行质量监控。

● 提高科研开发效率。

● 促进沟通交流和合作。

数据可视化面向的是科学和工程领域数据,比如空间坐标和几何信息的三维空间测量数据、计算机仿真数据、医学影像数据,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。

信息可视化的处理对象是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是针对大尺度高维复杂数据,如何减少视觉混淆对信息的干扰。

近几年来,随着人工智能的兴起,人们逐渐发现有些事情其实使用机器能比人做得更好,同时也发现了一些事情需要借助人类3亿年的进化本领。所以将可视化与分析进行结合,产生了一个新的学科——可视分析学。可视分析学被定义为由可视交互界面为基础的分析推理科学,将图形学、数据挖掘、人机交互等技术融合在一起,从而促使人脑智能和机器智能优势互补和相互提升。 k5BX7iNbR7OxISNJjMTtGHqXPjUdQSJIIQbLREFuEdkFRds3ifm8npGQz2KIlJMi

点击中间区域
呼出菜单
上一章
目录
下一章
×