购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

工具和火的使用让人类成为高级生物,语言和文字为人类形成社会组织和社会文化提供了支撑。之后,人类历经农业革命、工业革命、能源革命、信息革命,终于走到今天的“智能革命”。薛定谔认为熵减是生命的本质,而第二热力学定律认为熵增是时间的本质。宇宙中生命的意义之一就是和时间对抗,而对抗的工具就是智能,智能的基础就是信息和信息熵。

人类智能可以分为:生物脑智能、工具自动化智能、人工智能等。其中人工智能主要是指机器智能,它又可以分为强人工智能和弱人工智能。强人工智能是制造有意识和生物功能的机器,如制造一个不但飞得快,还有意识、会扇动翅膀的鸟。弱人工智能则是直接实现目标功能,如制造只会飞的飞机。强人工智能现在还没有完全成为一门理性的学科,在心理学、神经科学等领域有很多问题需要解决,还有很长的路要走。弱人工智能是目前智能革命的主角,主要有基于知识工程和符号学习的传统人工智能,以及基于数据和统计学习的现代人工智能(包括机器学习和深度学习技术)。现代人工智能的本质是一种数据智能,主要适用于分析和预测,也是本序中讨论的主要的人工智能形式。其中,分析假设研究对象在问题领域的数据足够丰富;预测假设研究对象在时间变化中存在内在规律,过去的数据和未来的数据是同构的。分析和预测的基础是数学建模。根据以上对人工智能的分类和梳理,我们很容易就能判断当前的人工智能能做什么、不能做什么,既不会忽视人工智能的技术“威力”,也不会盲目神化人工智能。

很多人会把人工智能技术归属为计算机技术,但我认为计算机技术仅仅是人工智能的工具,而人工智能技术的核心在于问题的抽象和数据建模。如果把人工智能技术类比为天文学,计算机技术就可以类比为望远镜,二者有着密切的关系,但并不完全相同。至于其他计算机应用技术,如手机应用、网络游戏、计算机动画等技术,则可以类比为望远镜在军事、航海等领域的应用。如果将传统的计算机应用技术称为软件1.0,人工智能技术则可以称为软件2.0。软件1.0的核心是代码,解决的是确定性问题,对于问题解决方案的机制和原理是可以解释的、可以重复的;软件2.0的核心是数据,解决的是非确定性问题,对于问题解决方案的机制和原理缺乏可解释性和可重复性。用通俗的话来讲,软件1.0要求人们首先给出问题解决方案,然后用代码的方式告诉计算机如何去按照方案和步骤解决问题;软件2.0则只给出该问题的相关数据,然后让计算机自己学习这些数据,最后找出问题的解决方案,这个方案可以解决问题,但可能和我们自己的解决方案不同,我们也可能看不懂软件2.0的解决方案的原理,即“知其然不知其所以然”。但软件2.0非常适合解决人类感知类的问题,例如,计算机视觉、语音处理、机器翻译等。这类问题对于我们来说可以轻松解决,但是我们可能也说不清是怎么解决的,所以无法给出明确的解决方案和解决步骤,从而无法用软件1.0的方式让计算机解决这些问题。

如今,基于数据智能的人工智能技术正在变成一种通用技术,一种“看不见”但被广泛使用的技术。这类似于计算机对各个行业的影响,类似于互联网对各个行业的影响。近期,工业互联网以及更广泛的产业互联网,将成为人工智能、大数据、物联网、5G等技术最大的应用场景。

人工智能技术在产业中有5个重要的工作环节:一是算法和模型研究,二是问题抽象和场景分析,三是模型训练和算力支持,四是数据采集和处理,五是应用场景的软硬件工程。其中前4个工作环节属于人工智能的研究和开发领域,第5个属于人工智能的应用领域。

(1)算法和模型研究。数据智能的本质是从过去的数据中发现固定的模式,假设数据是独立同分布的,其核心工作就是用一个数学模型来模拟现实世界中的事物。而如何选择合适的模型框架,并计算出模型参数,让模型尽可能地、稳定地逼近现实世界,就是算法和模型研究的核心。在实践中,机器学习一般采用数学公式来表示一种映射,深度学习则通过深度神经网络来表示一种映射,后者在对数学函数的表达能力上往往优于前者。

(2)问题抽象和场景分析。在人工智能的“眼”中,世界是数字化的、模型化的、抽象的。如何把现实世界中的问题找出来,并描述成抽象的数学问题,是人工智能技术应用的第一步。这需要结合深度的业务理解和场景分析才能够完成。例如,如何表示一幅图、一段语音,如何对用户行为进行采样,如何设置数据锚点,都非常需要问题抽象和场景分析能力,是与应用领域高度相关的。

(3)模型训练和算力支持。在数据智能尤其是深度学习技术中,深度神经网络的参数动辄数以亿计,使用的训练数据集也是海量的大数据,最终的网络参数通常使用梯度优化的数值计算方法计算,这对计算能力的要求非常高。在用于神经网络训练的计算机计算模型成熟之前,工程实践中一般使用的都是传统的冯·诺依曼计算模型的计算机,只是在计算机体系设计(包括并行计算和局部构件优化)、专用的计算芯片(如GPU)、计算成本规划(如计算机、云计算平台)上进行不断的优化和增强。对于以上这些技术和工程进展的应用,是模型训练过程中需要解决的算力支持问题。

(4)数据采集和处理。在数据智能尤其是深度学习技术中,数据种类繁多,数据数量十分庞大。如何以低成本获取海量的数据样本并进行标注,往往是一种算法是否有可能成功、一种模型能否被训练出来的关键。因此,针对海量数据,如何采集、清洗、存储、交易、融合、分析变得至关重要,但往往也耗资巨大。这有时成为人工智能研究和应用组织之间的竞争壁垒,甚至出现了专门的数据采集和处理行业。

(5)应用场景的软硬件工程。训练出来的模型在具体场景中如何应用,涉及大量的软件工程、硬件工程、产品设计工作。在这个工作环节中,工程设计人员主要负责把已经训练好的数据智能模型应用到具体的产品和服务中,重点考虑设计和制造的成本、质量、用户体验。例如,在一个客户服务系统中如何应用对话机器人模型来完成机器人客服功能,在银行或社区的身份验证系统中如何应用面部识别模型来完成人脸识别工作,在随身翻译器中如何应用语音识别模型来完成语音自动翻译工作等。这类工作的重点并不在人工智能技术本身,而在如何围绕人工智能模型进行简单优化和微调之后,通过软件工程、硬件工程、产品设计工作来完成具体的智能产品或提供具体的智能服务。

在就业方面,产业内的人工智能人才可以分为5类,分别是研究人才、开发人才、工程人才、数据人才、应用人才。对于这5类人工智能人才,工作环节都有不同的侧重比例和要求。

(1)研究人才,对于学历、数学基础都有非常高的要求;研究人才主要工作于学校或企业研究机构,其在人工智能技术的5个环节的工作量分配一般是20%、20%、30%、30%、0%。

(2)开发人才,对于学历、数学基础都有要求;开发人才主要工作于企业人工智能技术提供机构的产品和服务部门,其在人工智能技术的5个环节的工作量分配一般是10%、20%、30%、30%、10%。

(3)工程人才,对从业者的学历有要求,对其数学基础要求不高,主要工作于人工智能技术提供机构的产品和服务部门,其在人工智能技术的5个环节的工作量分配一般是0%、20%、20%、30%、30%。

(4)数据人才,对从业者的学历、数学基础没有特殊要求,主要工作于人工智能技术提供机构、应用机构的数据和服务部门,其在人工智能技术的5个环节的工作量分配一般是0%、10%、10%、70%、10%。

(5)应用人才,对从业者的学历、数学基础没有特殊要求,主要工作于人工智能技术应用机构的产品和服务部门,大部分来自传统的计算机应用行业,其在人工智能技术的5个环节的工作量分配一般是0%、10%、10%、10%、70%。

课工场和人民邮电出版社联合出版的这一系列人工智能教材,目的是针对性地培养人工智能领域的开发人才和工程人才,是经过5年的技术跟踪、岗位能力分析、教学实践经验总结而成的。对于人工智能领域的开发人才和工程人才,其技能体系主要包括5个方面。

(1)数据处理能力。数据处理能力包括对数据的敏感,对大数据的采集、整理、存储、分析和处理技巧,用数学方法和工具从数据中获取信息的能力。这一点,对于人工智能研究人才和开发人才,尤其重要。

(2)业务理解能力。业务理解能力包括对领域问题和应用场景的理解、抽象、数字化能力。其核心是如何把具体的业务问题,转换成可以用数据描述的模型问题或数学问题。

(3)工具和平台的应用能力。即如何利用现有的人工智能技术、工具、平台进行数据处理和模型训练,其核心是了解各种技术、工具和平台的适用范围和能力边界,如能做什么、不能做什么,假设是什么、原理是什么。

(4)技术更新能力。人工智能技术尤其是深度学习技术仍旧处于日新月异的发展时期,新技术、新工具、新平台层出不穷。作为人工智能研究人才、开发人才和工程人才,阅读最新的人工智能领域论文,跟踪最新的工具和代码,跟踪人工智能平台和生态发展,也是非常重要的。

(5)实践能力。在人工智能领域,实践技巧和经验,甚至“数据直觉”,往往是人工智能技术得以落地应用、给企业和组织带来价值的关键因素。在实践中,不仅要深入理解各种机器学习和深度学习技术的原理和应用方法,更要熟悉各种工具、平台、软件包的性能和缺陷,对于各种算法的适用范围和优缺点要有丰富的经验积累和把握。同时,还要对人工智能技术实践中的场景、算力、数据、平台工具有全面的认识和平衡能力。

本系列教材在学习内容的选择、学习路径的设计、学习方法和项目支持方面,充分体现了以岗位能力分析为基础,以核心技能筛选和项目案例融合为核心,以螺旋渐进的学习模式和完善齐备的教学资料为特色的技术教材的要求。概括来说,本系列教材主要包含以下3个特色,可满足高校人工智能相关专业的教学和人才培养需求。

(1)实操性强。本系列的教材在理论和数学基础的讲解之上,非常注重技术在实践中的应用方法和应用范围的讨论,并尽可能地使用实战案例来展示理论、技术、工具的操作过程和使用效果,让读者在学习的过程中,一直沉浸在解决实际问题的对应岗位职业状态中,从而更好地理解理论和技术原理的适用范围,更熟练地掌握工具的实用技巧和了解相关性能指标,更从容地面对实际问题并找出解决方案,完成相应的人工智能技术岗位任务和考核指标。

(2)面向岗位。本系列的教材设计具备系统性、实用性和一定的前瞻性,使用了因受软件项目开发流程启发而形成的“逆向课程设计方法”,把课程当作软件产品,把教材研发当作软件研发。作者从岗位需求分析和用户能力分析、技能点设计和评测标准设计、课程体系总体架构设计、课程体系核心模块拆解、项目管理和质量控制、应用测试和迭代、产品部署和师资认证、用户反馈和迭代这8个环节,保证研发的教材符合岗位应用的需求,保证学习服务支持学习效果,而不仅仅是符合学科完备或学术研究的需求。

(3)适合学习。本系列的教材设计追求提高学生学习效率,对于教材来说,内容不应过分追求全面和深入,更应追求针对性和适应性;不应过分追求逻辑性,更应追求学习路径的设计和认知规律的应用。此外,教材还应更加强调教学场景的支持和学习服务的效果。

本系列教材是经过实际的教学检验的,可让教师和学生在使用过程中有更好的保障,少走弯路。本系列教材是面向具体岗位用人需求的,从而在技能和知识体系上是系统、完备的,非常适于高校的专业建设者参考和引用。因为人工智能技术的快速发展,尤其是深度学习和大数据技术的持续迭代,也会让部分教材内容,特别是使用的平台工具有落后的风险。所幸本系列教材的出版方也考虑到了这一点,会在教学支持平台上进行及时的内容更新,并在合适的时机进行教材本身的更新。

本系列教材的主题是以数据智能为核心的人工智能,既不包含传统的逻辑推理和知识工程,也不包含以应用为核心的智能设备和机器人工程。在数据智能领域,核心是基于统计学习方法的机器学习技术和基于人工神经网络的深度学习技术。在行业实践应用中,二者都是人工智能的核心技术,只是机器学习技术更加成熟,对数学基础知识的要求会更高一些;深度学习的发展速度比较快,在语音、图像、文字等感知领域的应用效果惊人,对数据和算力的要求比较高。在理论难度上,深度学习比机器学习简单;在应用和精通的难度上,机器学习比深度学习简单。

需要注意的是,人们往往认为人工智能对数学基础要求很高,而实际情况是:只有少数的研究和开发岗位会有一些高等数学方面的要求,但也仅限于线性代数、概率论、统计学习方法、凸函数、数值计算方法、微积分的一部分,并非全部数学领域。对于绝大多数的工程、应用和数据岗位,只需要具备简单的数学基础知识就可以胜任,数学并非核心能力要求,也不是学习上的“拦路虎”。因此,在少数学校的以人工智能研究人才为培养目标的人工智能专业教学中,会包含大量的数学理论和方法的内容,而在绝大多数以应用型人才培养为目标的专业教学中,并不需要包含大量的数学理论和方法的内容,这也是本系列教材在专业教学上的定位。

人工智能是人类在新时代最有潜力和生命力的技术之一,是国家和社会普遍支持和重点发展的产业,是人才积累少而人才需求大、职业发展和就业前景非常好的一个技术领域。可以与人工智能技术崛起媲美的可能只有40年前的计算机行业的崛起,以及20年前的互联网行业的崛起。我真心祝愿各位读者能够在本系列教材的帮助下,抓住技术升级的机遇,进入人工智能技术领域,成为职业赢家。

北大青鸟研究院院长 肖睿
于北大燕北园
2020年6月 YEiJIfFEF+JvGCi1Ou04c/vmX3w7i8Hhtu99umldV8QUbKinDuW311oQvHmecH7B

点击中间区域
呼出菜单
上一章
目录
下一章
×