购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

引言
数据驱动的人工智能:探源、局限与出路

难题:直面人工智能的中国之问

《国家创新驱动发展战略纲要》指出,我国到2050年要建成世界科技创新强国,成为世界主要科学中心和创新高地。万丈高楼平地起,中国人能否建立自主的、原创的独立思想和流派,能否在人工智能领域成为引领世界的科创中心?

首先我们要面对的是人工智能的“中国之问”:

●为什么AlphaGo、ChatGPT没有在中国诞生?

●为什么中国只能出现“百模大战”?

●什么时候才能出现人工智能的中国时刻?

每每站在关乎国家命运的十字路口,我们总会听到来自历史的叩问。无论是“李约瑟难题”“钱学森之问”,还是今天人工智能的“中国之问”,都考验着我们国家战略方向的确立和科学家的使命感。要交出一份满意的答卷,我们就要走出一条属于中国自己的路,一条底层逻辑自主可控的创新之路,以中国优秀的哲学思想,指导人工智能的前沿探索。

我们有必要从源头捋清发展脉络。许多成果明明由我们先开始,却被误以为是别人先做出来的。这就像在体育场里跑马拉松会出现“套圈”现象,我们已经领先了10圈,其他选手虽然看起来像是在我们前面,观众看到的好像是其他选手领先,实际上却忽略了我们其实是在他们前面。

在本章节中,我们从大数据起源出发,探讨数据驱动人工智能存在的局限性,阐述从数据驱动到价值驱动通用人工智能道路的必要性,还有“UV理论”应用在建立全球首个AGI评级测试标准的创新尝试。

探源:大数据驱动的人工智能

人工智能现在是全国乃至全世界都关注的热门领域,这种“热度”源自大语言模型的流行。但实际上,在这股热潮之前,人工智能已经在科学家们的艰辛探索下走过了几十年的发展路程。对技术发展溯源,其实也就是对人工智能进行探源,这将有助于我们在热闹和喧嚣背后进行清醒思考,并能够理性地选择人工智能的未来之路。

探源是一个非常复杂的问题。以长江为例,儒家经典《禹贡》记载,长江的源头是四川岷江,这种观念持续千年,直到明末徐霞客才通过探源并在《江源考》中提出,金沙江是长江的源头。我国科考队在1976年才论证了长江源是沱沱河和唐古拉山。

对数据的溯源就像对长江探源的过程,探索源头能够让我们了解事物的历史、本源,帮助我们更好地理解现在、展望未来。

下面让我们一起探究大数据的起源,做一次“数据溯源”的科学考察。在此明确,此处说的大数据尤其指在计算机视觉领域的数据,也就是图像数据。为什么要从视觉说起呢?视觉是“五感”中接收信息量最丰富、系统最复杂、范围最广阔的觉知能力,人的大脑皮层的活动,大约70%是在处理视觉相关信息。我和团队也是从视觉大数据开始,视觉大数据是我们的起点。

其次,我希望大家能够记得几个时间节点:20世纪60年代~80年代、1995年—2005年,这些关键事件发生的几件大事,值得铭记。

●统计建模与随机计算学派的兴起。

●数字相机带来的大量图像与视频数据。

●互联网的普及。

我还希望大家能记住几个简单的词:PG 0 、PG + 和PG ++ ,这几个关键词代表了我们对智能理解的升级。

实现通用人工智能是全人类的梦想。要完成这个目标,有3个问题需要回答。

●到底多“通用”才算是通用人工智能?

●通用人工智能需要完成多少项任务?

●如何评估各种算法的进步是否真的走在迈向通用智能体的道路上?

我从20世纪60年代~80年代那段时期说起。当时,陆续出现了基于视觉的人工智能研究,但限于当时的条件,缺乏有效的数据支持。早期60年代到70年代,这一时期基于视觉的AI研究主要是线画的解释(line drawing interpretation)和块状物体的解译(block world parsing),见图0-1。即使到了1994年,技术也没有本质上变革。根据傅京孙先生的定义,视觉计算的目标是输出一个解译图(parse graph,PG),在结果中不仅能展示物体识别,还能标注物体之间的关系,例如“连接关系”“遮挡关系”等。

图0-1 块状物体的解译

资料来源:King Sun Fu. Introduction to syntactic pattern recognition. Syntactic pattern recognition, applications , pages 1–30. Springer, 1977。

但那时候的图像只能是线图,图像数据非常匮乏。为什么没有真实图像呢?我认为主要有两个原因。

第一个原因是当时的计算机资源有限(见图0-2)。那时的微机内存只有640千字节(KB),这是什么概念呢?现在手机拍一张照片就有好几兆字节(MB)。1MB是1024KB,也就是说当时的计算机内存根本就放不下一张真实图像。

图0-2 20世纪60~80年代,计算资源有限

注:图(a),当时的微机内存只有640KB。图(b)世界上第一只数字摄像头诞生于1975年。

第二个原因是当时还没有数字照相机。1992年,我所在的哈佛大学的实验室花费大约25万美元构建了一个数字摄像机。可就算是这样的“天价”设备,从带宽到内存等各方面仍然无法满足基本要求。即便是到了1995年,我所在的实验室为我配置了当时最先进的32MB内存工作站,处理图片依然是个难题。在编程过程中,我们经常需要读取磁盘,将中间数据加载并保存下来,系统崩溃后,再把中间结果从磁盘中读出来。可以说,直到20世纪90年代中期,视觉研究只能局限于最简单的几何形状研究。

当时我开始筹备我的第一篇关于计算机视觉的论文(见图0-3),那时是在做关于2D形状的对称中轴(media axis)的表达,我们从明信片、拍照或书籍中扫描照片,然后手工将其转化为二维照片来研究。研究团队想建立一个叶子数据库,需要我们去捡大量叶子进行扫描。那时我常在波士顿的路边捡不同的叶子,捡得太专注,直到被近处一声呼喊吓了一跳,原来我不小心误入了别人的院子,被当成了小偷。

图0-3 1994年,2D形状的表达与物体识别解译

资料来源:Zhu,1994,FORMS。

20世纪90年代末,出现了大量图像集,例如索尔比数据集(Sowerby Image Database,SID)和科立尔(CorelDRAW)数据集(见图0-4)。一些摄影师将自己的作品刻录成光盘出售,我购买了这些光盘尝试读取和研究,但那时的图片尚未有标注,还不能算是数据集。直到90年代末,感知器革命的到来,才推动了大数据和机器学习的蓬勃发展。

图0-4 20世纪90年代末,索尔比数据集

注:感知器革命带来了大数据处理能力的变化,出现了大量图像集,索尔比数据集就是其中之一。

我认为,世界上最早的标注数据集来自一名日裔博士生斯科特·小西(Scott Konishi)。他在1998年的研究工作中完成了最早的标注数据集,其成果后来发表在论文《边缘检测的基本边界:不同边缘线索的信息论评估》( Fundamental bounds on edge detection: An information theoretic evaluation of different edge cues )中,这篇文章专注于边缘检测。当时也有一些任务数据集,比如手写体识别、从0到9标记10个数字等,但我认为这些都是分类而非标注。

我与小西之间还有一段故事。当时他是加州大学伯克利分校的博士生,没有导师指导,便跟随了艾伦·尤利(Alan Yullie)。后者是我在哈佛大学的同事。小西博士1997年至1998年在旧金山的一个研究机构里进行枯燥的数据标注工作,经费非常紧张。我当时在斯坦福大学担任讲师,系主任从微软的联合创始人保罗·艾伦(Paul Allen)那里为我要了一笔6万美元的捐赠。我正准备离职,便将未使用完的资金资助了小西博士。我们当时的工作是世界上第一次使用统计方法来创建边缘检测数据集。后来该成果发表在1999年的计算机视觉与模式识别(Computer Vision and Pattern Recognition,CVPR)会议上(见图0-5)。随后我们举办了首届统计建模与随机计算研讨会,来者也多是学统计出身的学者(见图0-6)。这也标志着统计建模与随机计算方法正式汇入计算机视觉研究。

图0-5 1999年,世界上第一次被标注的数据集

注:世界上第一次被标注的数据集,正式发表于1999年的CVPR。

图0-6 统计建模与随机计算首次进入CVPR

注:以此为起点,用统计方法来做边缘检测数据集成为一种新的趋势。

2001年,加州大学伯克利分校的大卫·马丁(David Martin)提出了图像分割(Image Segmentation)数据集(见图0-7)。我指导的第一个博士生屠卓文在这个数据集上用马尔可夫链蒙特卡洛(MCMC)方法取得了最佳成绩,远远超过了他们最初提出的算法。2003年,李飞飞提出了Caltech101数据集,其实这个数据集没有标注,只是包含了101个分类,如“狗”“飞机”“汽车”等(见图0-8)。

图0-7 2001年,世界上第一个图像分割数据集

注:2001年大卫·马丁提出图像分割数据集,科学家们又向着更高层级图像解译迈出了一步。左下图为屠卓文的论文,该论文标题译为“数据驱动马尔可夫链蒙特卡罗图像分割”。

图0-8 2003年,李飞飞团队提出Caltech 101数据集

注:该数据集没有标注,只是分类。

到这里,源头阶段的脉络就很清晰了,此时的我们已经身处“PG 0 时代”。回顾这几个对人工智能来说重要的时间节点,从20世纪70年代到1999年,中间跨越了几十年,从1999年到2001年、2003年仅仅只有几年时间,我作为身在这个领域的学者,能够深刻感觉到人工智能进入了一个新的时代。

创新:突破数据统计的局限

尽管早在20多年前就预测到了人工智能的“奇点临近”,但我必须强调的是,几十年的探索让我们清醒地认识到,数据与统计方法驱动的人工智能发展道路存在自身的局限性,当时对人工智能的认知与开发还远远不足,到今天证明了,我的想法是有依据的,也为我们正确认识大数据提供了认知,抢占了发展先机。为了说清楚这个问题,我继续从本世纪初的科研实践说起。

1999年,我的实验室开始做图像解译,这个工作在2003年国际计算机视觉大会上获得了计算机视觉研究的最高荣誉——马尔奖。从20世纪90年代最早将统计建模与学习方法引入计算机视觉,我的团队发现统计在对图像理解方面有着越来越重要的作用,所以随着大数据的到来,我决定在湖北鄂州创立莲花山研究院 ,开启大规模、高精度的数据标注工作。

2004年,莲花山研究院正式注册成立,是中国首家民办非营利性机构。这不仅对我个人的科研生涯有意义,对于人工智能发展史也是具有标杆意义的存在。彩图1为第一届莲花山研究院研讨会合影。

莲花山研究院做的第一件事是建立一个团队,以收集、标注、解译图像与视频。这个阶段的图像解译不同于以前的单点分割和图像分类,它需要解译整个图像的结构。举个例子,如果给莲花标记,我们不仅需要分类,还要标注花瓣、花蕊等所有结构。这个过程覆盖的范围非常全面。此外,图像解译还关注物体之间的关系,例如标记一辆被柱子挡住的车时,我们会标记遮挡关系,还会生成图像标签图、子图和三维标记。这是一个非常复杂的过程,所以我们还制定了标注标准,并产生了手册、定义了怎么解译图像的细节(见彩图2)。团队后来承接了来自世界各地科研机构数据标注的业务,签订了不少合同。

到这个阶段,也就是我们现在可以称之为“PG 0 时代”的阶段。大家可以观察彩图2中的小三角形,图像解译图中的每个节点分别代表场景、物体、部件,以及基元的分割、识别。节点都已经被填满了,这表示,此时技术能够达到对图片本身的解译没有“死角”的程度,通过“分割”(segmentation)、“对象检测”(object detection)和“三维构建”(3D construction)等技术,已经能够对图片画面有充分的理解(见图0-9)。

图0-9 莲花山数据集:图像的三维解译

值得一提的是,莲花山研究院还是人工智能生成内容(AIGC)应用的诞生地之一。我们基于我们在30年前提出的、用于纹理合成的模型,开发了一种将结婚照转化为油画的技术(见图0-10)。将结婚照转化为油画是我们最早的产业化尝试之一,也是世界上最早的生成式模型(见图0-11)。

图0-10 我们最早的产业化尝试之一:将结婚照转化为油画

注:该论文标题译为“从图像解译到绘画渲染”。

图0-11 世界上最早的生成式模型:纹理合成

注:1996年,我们提出了世界上第一个通用的纹理建模的统计模型FRAME(Filters, Random Fields and Maximum Entropy),将神经生理学的发现和统计建模相结合,该模型能够从观察纹理出发无限合成新的纹理,并使新纹理能够在宏观统计量中得到匹配。

目前流行的大模型GPT是预训练模型(pre-trained model),在30年前我们将其称之为先验学习(prior learning,见图0-12)。这些年广受关注的生成式对抗网络(GAN),最早也是由我的一位博士生屠卓文提出的,后来被国外一些研究团队声势浩大地推广,并更名为GAN(见图0-13)。

图0-12 先验学习与吉布斯分布

注:该论文标题译为“先前学习与吉布斯反应扩散”。先验模型(Prior Model)最近被改称为“生成式预训练”(Generative Pre-trained)。

图0-13 纹理合成:多层神经网络的产生式模型

注:2015年,随着算力的提升,我们又用多层神经网络重新进行了计算。左边是一张输入图像,砖墙上有爬藤和叶子,爬藤和叶子各占一半,这就是统计量。右边是根据FRAME建模随机合成的四张图片,这些随机图片和输入图片匹配了一些统计量,比如爬藤和叶子各占一半,一些砖的摆设等。但这种模型也有泛化性,比如有些砖缝里面突然长出了叶子,这有可能符合物理规律,也可能不符合。我们将这些在物理学上不可能存在的情况称为“幻觉”,幻觉能够满足统计特征,但不符合物理规律。比如从砖缝中长出叶子,就是符合物理规律的。但如果从砖面上长出来,就不符合物理规律,这就是所谓的幻觉。幻觉是生成式模型的一个本质特征,我们利用幻觉来泛化,但同时因为它只关注统计量,没有关注背后的因果与价值,所以生成的结果会被认为是“翻车”了。这就是生成式模型的本质,我们之前就注意到了这一点。

2005年,欧洲出现了PASCAL数据集,全称为Pattern Analysis, Statistical Modelling and Computational Learning。PASCAL数据集专注于图像分类和分割,是一个非常有名的数据集。那一年也发生了一段小插曲:我们开始承接海外订单,为美国一些公司标注数据,我们标注得非常准确,价格也比较便宜。当时PASCAL数据集的人找到我们,希望我们能为他们的数据集进行标注。按照我们的标注方法,每幅图片需要标注1000多个点,我们的报价是每幅图片1欧元。但因为他们有数万幅图片,觉得价格太贵,最终导致了合作的破裂。他们决定放弃图像解译,转而专注于图像分割和分类任务。

大约在这一节点后,科研风气发生了变化。在后来专注于图像分割和分类的研究人员中,有一部分是欧洲几何研究者,他们在20世纪70至90年代非常活跃。然而,随着1999年统计建模技术的兴起,这些研究者面临了前所未有的挑战,点云(point cloud)等技术的发展遇到了瓶颈,迫使他们转向图像分类领域。他们开始构建大型数据集,组织竞赛和“刷榜”。从2008年开始,“刷榜”文化逐渐盛行,所谓的“刷榜”就是下载他人的代码,改进、调整,用一个数据集在算法下进行测试、评估和排名,不断地在排行榜上拿名次,但是这个代码不是自主创新的。

2006年,我们在加州大学伯克利分校举办了一次会议,当时很多数学家在场。那些专们做大数据的人站起来说:“你不需要关心其他问题,只需在我的数据集上进行测试即可。”我的导师,菲尔兹奖得主、著名数学家大卫·曼福德(David Mumford)当时也在场,他感到了极大的冒犯。这背后其实反映了当时的研究路径出现分歧,争论的核心在于是用经验主义还是理性主义来解决问题。

经验主义和理性主义有什么不同呢?经验主义完全依赖于数据驱动,但数据之外总有例外,世界的复杂性可能远超数据所能涵盖的范围。数据可以帮助我们窥见事物的一部分,但无法呈现全部。而理性主义则强调科学的美感,比如爱因斯坦所倡导的第一性原理,即通过对复杂世界的简化,找到事物本质,形成普遍适用的理论框架,比如“大一统理论”。

说到这里,我分享一个颇具代表性的故事。2010年,我在一次发言中探讨了理性主义和经验主义的争论。当时,我们在投论文时,大致会遇到两类审稿人:经验主义审稿人和理性主义审稿人(见图0-14)。经验主义的审稿人通常会要求你在不同数据集上运行你的方法,这些审稿人“迷信”性能(State of the Art,SOTA),对理论本身不感兴趣并持质疑态度。他们的观点类似于:“如果你真聪明,怎么会不富有呢?”他们可能会质疑:“如果你的研究方法真的好,那么为什么比不上现在的性能呢?”就像聪明和富有并无直接关联,能不能在数据集上登上榜首,跟研究方法的优劣也没有必然关系。经验主义审稿人和理性主义审稿人的对立,凸显了当时解决问题的研究路径出现分歧。

图0-14 经验主义审稿人和理性主义审稿人

注:经验主义的审稿人和理性主义的审稿人产生了对立,凸显了当时解决问题的研究路径出现分歧。

对于那些偏好运行数据集的文章,理性主义的审稿人则会说:“你的算法只是在你选定的有限数据集上有效,但对理解真实问题没有帮助。”坚持理性主义的研究者会从理论上证明某个问题不可解,以此作为拒掉文章的标准。因此,当时论文能否被接受,很大程度上取决于送到哪类审稿人手里。后来,经验主义审稿人占绝大多数,做理论研究的人就逐渐退出了计算机视觉领域。

我更倾向于理性主义,同时结合一定的经验数据。经验主义不是指前人经验,而是用数据结果来指导,从一开始就抱定对世界本源、本真、本质的探索。为什么我还是这么执着于理性主义、坚持价值驱动的研究道路呢?

出路:探索数据背后的因果与价值

下面,我解释一下PG + 和PG ++ 这两个关键概念,这也是我们取得跨越式发展、找到出路的关键。

到了2008年,对于图像本身,即PG 0 阶段的解译已经达到了相当成熟的水平,科学家对图像的探索与创造迎来了一个“百花齐放”的时期。我的前同事、麻省理工学院的安东尼·托拉尔巴(Antonio Torralba)曾创建了一个名为LabelMe的网站,意为“给我打标签”,见图0-15。这个网站允许用户在上面打标签,他们主要关注两类标签:场景类数据(scene category)和物体类数据(object category)。每一个节点其实就是一个任务,这在当时是颇具影响力的一项研究。

图0-15 安东尼·托拉尔巴创建LabelMe网站,用来收集场景和物品数据

注:LabelMe网站主要做的是物体的检测和识别(分类),可以视作PG 0 中的部分节点,而不是完整的解译。

另一个例子是ImageNet(见图0-16)。作者通过互联网众包的方式对大量图片打标签,他们在图片本身的解译工作中更加看重对物体的分类,大约划分了1000个类别。这项尝试后来也变得极为流行。

图0-16 2009年,ImageNet对象分类数据集

注:对图片解译的探索已经到了一个瓶颈期,研究只能在PG 0 框架内进行。

但是,我想强调的是,这些尝试始终是在PG 0 的框架内进行的。在这个阶段,科学家们并未能超越对图像内容的直接解译。他们对图像的解读,无非是从“场景”、“物体”以及“物体间关系”等不同维度进行努力。但是,若要探究如何迈向通用人工智能的境界,我们就必须从更为深刻的层面进行思考。

当技术到达一个瓶颈期,科学界便会涌现出众多的争论与分歧。这就如同科学家们面对一扇门,想要跨越这扇“通用人工智能”之门,就需要找到正确的钥匙。我认为,想要找到打开“通用人工智能”的正确钥匙,首先需要明白是什么困住了我们当前的步伐,需要认识到当时图片解译这一逻辑的局限性。

第一个局限性是大量物理和社会变量该如何标注的问题。借用物理学概念,我们能够观察到的物质和能量仅占宇宙总质能的5%,其余95%是我们无法观察到的暗物质和暗能量。这个观察与人工智能有相似之处,人工智能的研究对象也包含那些在图像中没有捕捉到的“暗物质”。这些“暗物质”与“暗能量”包括社会现象中的人类意图和思想,它们不同于统计学中的潜在变量,后者是客观的隐藏变量,而“暗物质”与“暗能量”往往是主观的、唯心的、内化于社会环境中的。人类能够感知这些变量,但机器无法识别,更无法直接标注这些内容。

第二个局限性是图像和场景的解译与具体任务高度相关,仅靠标注这种“一刀切”的方法,无法应对复杂多样的任务。任务是无限的,并且与智能体的具身性有关,因此标注变得非常困难。正如马尔所说,“the more you look, the more you see”(看得越多,你看到的就越多)。也就是说,感知到的内容取决于观察者想要做什么,也就是观察者的价值。中国古话更是简明扼要,即“相由心生”。例如,标记一个电话,简单地用一个框将电话框住并打个标签,系统就记录和认定该物体是“电话”,这就是传统大数据驱动范式的做法。但在真实场景中,具体的标注方式取决于任务,比如拨号或接电话时,人需要接触电话的不同位置,接触的位置不同,标注方式也理应不同。传统方法无法满足这种多样化的标注需求。

第三个局限性是我们不仅希望进行简单的标注,更希望实现图像的理解(understanding)。理解是一个极为复杂的过程,不同学者对此有不同的见解。一些学者认为,要实现理解,就需要定义语义,而语义则依赖于任务、因果关系和价值系统等。

计算机视觉中,有3种和理解相关的表达方式(见图0-17):

图0-17 计算机视觉的三种表达方式

●以视角为中心(view-centered),基于二维图像的外观。

●以物体为中心(object-centered),即基于几何进入三维场景。

●以任务为中心(task-centered),即从智能体的角度来理解世界。

认识到现有方法的局限性还不够,还需要提出解决方案,当时就“如何实现通用人工智能”这一问题,领域内不同学者各执一词。这在一定程度上也反映了经验主义和理性主义之间的矛盾。

后来,我提出的“小数据、大任务”范式,获得了学术界的广泛认同。我认为,人工智能研究中存在两种范式,一种是“大数据,小任务”,目前基于深度学习的很多大语言模型即属于此类,其特点是需要极大的数据,但只能完成有限任务,不能对应现实的因果逻辑,无法泛化,类似善于学舌但无法进行认知推理的鹦鹉,你教一只鹦鹉大量内容,它才能说有限的几句话;另一种是“小数据,大任务”,其特点是小数据、无监督,可以泛化,类似能在复杂情境中进行认知推理的乌鸦,仅仅靠示范几次,就能完成一整套任务。

因为此范式的提出,我们还获得了一些项目(项目研究团队见彩图3)。我们的第一个“多大学研究计划”(Multi-University Research Initiative,MURI)项目(2010—2015年)专注于图像解译。通过层层解译图像,我们成功生成了文本,用自然语言描述图像。这一项目成为后来视觉问答(VQA)模型的原型。研究团队在IEEE上发表的论文见彩图4。

第二个MURI项目(2015—2020年)则聚焦于场景理解,涵盖语义解译,并进一步探讨了对物理和心智的理解。我们的主要目标就是通过一系列跨学科交叉研究,将计算机视觉、机器人、机器学习、应用数学、神经科学、统计与应用等各个领域专家聚到一起,探索出一条通用人工智能的统一理论。

我们很快发现,PG 0 阶段的技术已经不够“智能”了。在现实世界中,人们在观察图像时,其思维往往超越了画面本身,包含了丰富的想象成分。而这些想象的成分并没有在图片中直接体现出来,而是隐含在图片背后,并且能够广泛被人们理解。这对图片解译的意义非常重大。人工智能领域从此开启了PG + 时代(图0-18)。

图0-18 AI任务和解译图扩展

注:在原有的PG 0 基础上,图像解译的维度和空间被拓展,图像解译新时代到来。

在“PG + ”的框架中,很多图片中不能肉眼可见的智能“暗物质”蕴含其中。例如物体的功能(functionality)、物理变量(physics)、意图(intention)、因果关系(causality)和价值观(values)。物体之间的受力关系,人的价值观,都不能在像素上被观察到,但价值观和因果关系深植在世界的运行中,是人类社会的“约定俗成”。

在人类看来,图片虽然是一个平面,但是蕴含了超越图片本身的信息量。以“砸核桃”的图片为例(见彩图5),看图的人不难想象到,在这个瞬间发生之前,核桃要被拿起、放下、对准、砸碎,这是一种对时间的感知;榔头的抬起、落下,这是对空间的感知;因为“砸”这个动作的发生,导致核桃碎了,这其中有对因果的感知。

到了PG + 阶段,我们觉得还不够,最终延展到了社会智能(social intelligence),它被我们称为PG ++ ,其范围远超出了PG 0 和PG + 。作为社会性动物,人类能够与他人和外部环境进行互动,这种互动会改变我们的认知。在这个过程中,我们会对某些行为或现象进行推理。

如彩图6所示,你在教室里演讲,有人举起了倒计时牌提醒你时间快到了,但你没有看到。这时,一位观众看到你没有注意到,便挥手并指向倒计时牌。你可能会下意识地跟随他的手势,从而看到倒计时牌。这个过程中至少包含了以下推理:“他对我挥手”“他指向了一个方向”“他在提醒我什么”“那是倒计时牌”“我演讲剩下的时间不多了”“我要加快速度了”。因此,这个过程虽然看似简单,实际上却是一个包含复杂推理的社交互动过程。

如彩图7所示,社会智能一般包括信相(belief)、意图(intention)和社会性推理(social reasoning)。人类作为智能体在“看”的过程中,其实在内部进行了许多自上而下的决策。从高层次的认知出发,无论是看图还是分析场景,我们都进行了许多从社会智能到暗物质,再到场景和物体本身的思考。关于PG ++ 的研究目前非常有限,这正是我们进一步探索的动力所在。

我们认为,在这个包含PG 0 、PG + 、PG ++ 的系统中去构建智能,才是把智能的“版图”拼完整了,即除了考虑视觉本身,还要考虑隐藏在背后的、人的内在要素和社会的内在机制,才能真正迈向通用人工智能,才能在时间、空间、因果上构成一个完整的智能体任务体系(见彩图8)。

正如图18中的三个箭头所示,PG + 和PG ++ 能够反过来帮助我们进行图像理解,所谓“相”由心生,对外在事物PG 0 的理解是由人的价值所赋予的。这个自上而下的机制,在目前自下而上的前馈神经网络(bottom-up feedforward)中是没有显示的存在,因为目前已有的神经网络没有对PG + 、PG ++ 的表达,故没有向下的指导。反观人类的神经系统,人类大脑皮层中有大量的从高级皮层向低级皮层投射的连接。人类是从价值、心智自上而下去理解这个世界的,这是人类大脑超越了目前统计建模的根本原因。

因此,在构建智能系统时,我们需要重新评估现有的框架,探索如何在AI体系中有效地融合这种自上而下的机制。这意味着不仅要提升机器在感知与识别方面的能力,还要赋予它们对背景、意图和价值的理解能力。这种理解需要机器能够推断出隐藏在表象下更深层次的信息,正如人类在面对复杂社会情境时所做的那样。通过这种整合,AI系统将不仅仅是信息处理器,而是能够参与到动态互动中,理解和预测人类行为和社会动态,从而在更高层次上实现真正的智能。这种转变将使得AI能够在复杂的现实世界中更加有效地行动,满足人类社会不断变化的需求,最终推动我们迈向通用人工智能。

沿着这条通路,我和我的研究团队不断拓展着对视觉大数据、对人工智能、对通用人工智能的边界,完成了对个体意义上通用人工智能体的底层逻辑搭建。在这个从PG 0 到PG + 、再到PG ++ 的框架下,搭建一个可以被广泛使用的数据训练平台与测试标准,自然成为了我和团队的下一个任务。

新标:全球首个AGI评级测试标准

2024年,我们推出了全球首个通用智能体——通通,并入选了中关村论坛重大科技成果(见图0-19)。在如今众多只考虑“机器性”的成果中,通通显得更具“人性”。她具备像人类一样的物理常识和社会常识,在价值驱动下,通通不仅能完成无限任务,还可以自主定义任务。这是通用智能的关键,也是人类自儿童阶段就已开始发展的能力。通通具有完备的PG 0 ,PG + ,PG ++ 的表达与构建能力。

图0-19 全球首个通用智能人“通通”入选中关村论坛重大科技成果

通通就像一个标杆,一棵通用人工智能的“小树”诞生了。想真正做到“俯瞰一片林”,必须将这一套标准形成一个平台,这个平台能够实现对通用智能体的评级、测试。于是我们推出了全球首个通用人工智能测试评级标准与平台——通智测试(Tong Test)。通智测试参考了人类婴幼儿发育的测试标准,研究总结出一种基于能力(U系统)和价值(V系统)的“UV通用人工智能评测”方法,并开发了复杂动态的物理场景(模拟仿真)和社会交互(混合现实)的测试平台。

这个测试平台的建立过程也分为几个阶段。2016年到2019年,为了将对智能体的训练做到充分,我开始带领团队搭建物理逼真的仿真场景(见图0-20)。

图0-20 2016到2019年,我们将丰富数据导入VR环境,用来搭建虚拟场景

要实现无限接近真实世界的程度,就意味着系统要有足够多、足够复杂的场景。所以我们在VR场景中批量导入了丰富的物体和场景数据,并让智能体与虚拟世界相互作用,记录智能体在虚拟环境中的表现,并通过外接设备观测实时情况。除了场景,我们还通过语言评估系统和以任务为导向的模拟器,构建对智能体的测试(见图0-21)。海量任务目标与场景、全流程记录智能体与环境互动,随时联通虚拟与现实、拥有语言评估与任务导向的模拟环境——这可以说是通智测试的雏形。

图0-21 运用语言评估系统和以任务为导向的模拟器,构建对智能体的测试

截至目前,这个系统已经能够实现不同场景的组合和搭建,与人类通过工作和学习获得能力与认知上的进步一样,任何智能体到这个环境里,都要接受任务挑战,平台可以搭建出逼真的室内场景和室外场景,包括写字楼、社区、学校等复杂场景,供智能体测试使用(见图0-22)。

图0-22 在2024年中关村通用人工智能论坛上发布的通智测试

外部平台搭建好之后,要考虑通智测试评价体系的内核,也就是“V系统”和“U系统”两大“支柱”如何构建的问题。U系统是势能函数,包含了智能体所掌握的客观物理定律、社会规范;V系统包含了智能体的价值函数集合。UV双系统的具体内容详见《为人文赋理》。

人工智能,“智”字在前。人们常说,“智慧不凭年龄凭心灵”,“智”要从心灵出发,从价值体系出发。实验表明,价值体系是人类作为智能体与生俱来的,尤其在不受国籍、种族、文化背景影响的婴幼儿身上体现得最为明显。例如,3-4个月大的婴儿已经具备因果推理,能够识别魔术,即不满足因果常识的物理现象。18个月大的婴儿已经能够开始识别出陌生人的意图并开始主动帮助。

儿童研究还发现,人类还能进化出大量的价值判断。比如,12个月的婴儿看到了两个成人在分配玩具,会倾向于选择分配“公平”的成人一起玩。8~12个月大的婴儿对于相似族裔的偏好要胜过对“公平”这一价值的偏好。也就是说,这个阶段的婴儿会在公平的成人和与自己族裔相同的成人之间选择相同族裔者。

所以在构建“V系统”时,通智测试充分考虑人类价值观发展的视角,采用了分级分层的价值体系。一些经典的心理学理论为通智测试具体评价指标的构建提供了有益延展。例如马斯洛和施瓦茨的理论就带来了启示。“需求层次理论”将人的需求从低到高分为生理需求、安全需求、社交需求、尊重需求和自我实现需求。人们通常先满足低层次需求,再追求高层次需求。施瓦茨提出了“人类基本价值观理论”,他认为价值观是一种有关什么是“值得的”观念,是人们对事物重要性的评价标准。

在“通智测试”的视角中,通用智能体应该有从基础到先进的价值体系。这个价值体系中有最基础的生理需求、对安全的需求,还有进一步的社交需求,比如对他人的关怀、对自己的关怀,还有尊重需求和自我实现的高阶价值,例如对人类社会、国家、社会等共同利益的关注等。

所以在通智测试中,价值系统被划分为5个价值层级,即基础自我价值、高级自我价值、多智能体交互价值、基础社会价值和高级社会价值,涵盖了从生理和生存需要,到情感和社会价值,再到群体价值,并且提出了每个层级中的关键点。

说完了“智”,再来说“能”。

当我们评价智能体到底是“小孩”还是“大人”时,必须首先考虑他的能力是否达到一定标准。比如普遍来说,成年人一定比幼儿跑得快、成年人的语言能力一定优于幼儿,这非常好理解。通智测试的具体能力指标,即“U系统”构建了一个以视觉、语言、认知、运动和学习5个主要能力为维度的评估框架,每个维度又设计分别对应5个不同的能力层级,并在各层级中详细定义了每个维度的任务(见图0-23)。能力层级越高,任务的复杂程度越高,层级所代表的能力空间就越大,能力空间所涵盖的、对现实世界规律的理解越深入、表征越广泛。

图0-23 通智测试的能力测评系统

注:根据发展心理学理论和人工智能发展规律,通智测试有L1-L5五级评分标准,难度逐级增加。

资料来源:Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions, Peng et al., 2024, Engineering。

举个例子,评估智能体语言能力时,第一层级就是理解词语,第五层级就需要实现推理和理解多人、多智能体交互;评估运动能力时,第一层级需要智能体控制自身运动,到了第五层级就包括社会交互与价值流动。这只是一个简单说明,实际上,在《通用人工智能:标准、评级、测试与架构》中,共设置了86项能力测试,并进一步衍生出更大量的任务测试,累计任务指标多达上百项。

在这个平台中,U系统和V系统不是单独运行的,它们之间有着紧密的关系。智能体从内在价值出发,不断驱动外在的能力与外部产生交互,价值驱动能力完成任务、做出决策,展现出自主行为。能力与环境的交互又反过来影响和构建价值体系的形成。这与真实世界的人类无异:当孩子希望被爱、被呵护,“价值”体系就会促使他们伸开双臂去拥抱家人,家人的拥抱反过来又会给孩子被承认、被尊重的体验。价值与能力相互驱动,相互塑造,这是我们日常生活中真实可感的“智能”,也是让智能体测试更有说服力的“金标准”。

至此,通智测试完成了它“价值”与“能力”的“双驱动评价体系”(见图0-24)。这个体系将能力空间和价值空间进行联合考虑,设置了5个通智测试等级(Level 1~5),进而形成了一套基于能力与价值双系统的通智测试评级理论。它建立的任务强调实用性、可测量性及与人类智能发展的一致性,成为挑战传统理论的范式,弥补了传统理论缺陷的典范。智能体能够在通智测试中通过完成任务进行测评,能完成的难度越高,最终就能够实现U(能力)和V(价值)越高的融合程度,就越接近真正的通用智能体。

图0-24 通智测试的“双驱动评价体系”

注:通智测试UV评价系统,两个系统又各自分5个评价等级,构建了完整的“双驱动评价体系”。

如果站在智能体进化的角度,我们不难看到一种必然的结论:随着灵长类动物的脑容量不断变大,其智能程度也会更高,这些是通过正向基因选择、谱系快速演化、基因家族不断扩张的结果。为了解释进化这一过程,我们提出了智能的CUV系统,这一系统由认知架构(C)、势能函数(U)和价值函数(V)组成。在这个框架中,C代表智能体的认知架构,它模拟大脑中的思维和决策过程;U函数涵盖了智能体对环境的理解,包括物理规律和社会规范;而V函数定义了智能体的目标和动机。CUV系统能够通过这些U和V函数来表征智能体的行为,模仿人类的智能思维和行动。

在CUV系统中,U函数形成了一个层次结构,从基础的运动、视觉感知、语言理解等,到更高级的社交技能,如理解他人的意图和情绪。价值函数V则影响智能体的行动方向和目的,类似于生物体在进化过程中形成的行为驱动力。通过不断最大化累积奖励并调整U和V函数,智能体能够实现个性化和灵活的学习方法。CUV系统提供了一种模拟智能的方法,决定了智能体位于智能谱系的哪个位置。

人类的运动能力比不上猿猴等灵长类动物,却能成为智能体的顶端生物,这是因为综合来看,人类有着更加高级的CUV系统。如果需要完成“能对所有智能体进行测试”这么一个理想目标,那么就需要在认知架构、能力系统、价值系统上同时满足“超越所有现存智能体最高水平”这个条件,找到所有智能体的“公倍数”(见彩图9)。通智测试就是在这个理论框架下进行构建的。

通智测试最终会实现对包括人类在内的、一切智能体的评级和测试,这也是实现“与人对齐”这个愿景的时刻。

目前,构建在这样一套底层逻辑上的通智测试,有什么颠覆式的创新呢?可以简单概述为三个基本特征:无限任务、自主生成任务、价值驱动并与人类对齐。

第一,无限任务指的是在通智测试中,任务的数量是无限的。我认为,一个智能体需要完成无穷无尽的任务才能称之为“通用”,真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务。在以往传统大模型的设计中,智能体任务是由专一任务转向多任务处理的,任务的数量是“叠加”起来的,这种叠加的方式带来一个问题:要叠加到多少任务,才算真正的“通用人工智能”呢?如果100项任务算是“通用人工智能”,那么出现第101项任务怎么办?所以任务的数量不能是绝对数,而是要满足任务“无限”涌现才可以,只有像通智测试一样,任务是无限的,才能够实现真正优秀的泛化能力。

第二,自主生成任务。人们憧憬着有朝一日智能体能够很好地融入人类日常生活,这就需要智能体可以根据外部环境事件和自我内在状态的变化,随时随地自动产生各种各样的任务,这也意味着在投入实际场景前,智能体能够应对和现实生活一样的随机要求。但是,如果智能体的运行完全依赖人类预设的任务目标,即便拥有海量训练数据和全面规则,仍然无法很好地应对未经训练的特殊情况和意外事件。例如,当孩子正拿着一个对他来说颇具危险性的小物件,没有经受过该物件数据训练的智能体能否自主识别出该任务的不合理之处并形成保护孩子安全的新任务?

为了应对这种情况,智能体需要具备自主定义任务的能力。当智能体处于开放环境时,它需要依据自身价值判断并自主设定任务,甚至可以进一步通过实际观察和体验来学习,逐步累积经验并塑造认知。这是通智测试的第二个特点。

第三,价值驱动和价值对齐。通智测试的价值体系(V系统)是它的核心组成部分。为了让智能体自主生成并完成符合人类需求的任务,通智测试融入了人类的基本价值观,使智能体有能力学习和理解人类的价值偏好,并最终实现与人类价值的对齐。这意味着通智测试不但从功能上完成对智能体的测试和评级,同时还能保证被测试的智能体有足够的、能通过人类社会安全“红线”的能力。

无限任务、自主生成任务、价值驱动与对齐,是通智测试的3个致胜“法宝”。无论通智测试平台场景如何再改进,它面向用户的体验如何再提升,这3个基本特征都是它不变的“底色”和准则,也是它能推动从数据驱动向任务驱动的转向、实现真正意义上通用人工智能的核心原因。

这些创新点对通用人工智能领域意义非凡,也让通智测试具有明显的优势(见图0-25)。

图0-25 通智测试与其他AI测试对比优势

其他智能体测试往往有以下缺点:

●任务复杂度不足,主要基于在特殊设计的环境中的对话/图像/操作,而没有在人类世界中复制物理和社会互动。

●主观偏见与缺乏量化。不同的人有不同的主观判断标准,缺乏对不同智能体之间的量化评估。

●缺乏价值测试,只有能力测试。

●缺乏对自主任务生成的测试,只有人类指定的任务。

通智测试则采取了一种全新的策略,为通用智能体的实现设计了一套顶层测试方案。通智测试的设计全面考虑了通用人工智能的关键特征,填补了通用人工智能评测的空白。这不但有助于指导研究者为通用人工智能构建综合的设计架构与完善的评估体系,而且能够为人工智能的安全治理问题提供积极的解决方案。

从实用性来说,在通智测试标准化、定量化和客观化的评估体系下,政府可针对不同水平的智能体制定不同的监管准入机制,这对于规范化通用人工智能的发展具有重要参考意义。另外,通智测试的评级机制还可以为通用人工智能的科研路径提供明晰、可靠的路线图,协助相关领域的研究者找准科研道路上的前进方向。

构建通智测试平台,形成全球首个AGI评级测试标准体系,就是对我开头提到的那几个问题的“答卷”。

●到底多“通用”才算是通用人工智能?

能力与价值都与人类对齐。这意味着AGI不仅需要在多种环境和任务中表现出高度的适应性和灵活性,还需要在道德和伦理上与人类的价值观保持一致。AGI应该能够理解并参与复杂的社交互动、解决广泛的实际问题,同时确保其行为和决策不会对人类和社会产生负面影响。只有在能力和价值观双重对齐的情况下,AGI才能被认为是真正的“通用”。

●通用人工智能需要完成多少项任务?

无限任务。这意味着AGI应该具备处理各种新颖和未预见任务的能力。与特定任务或领域的狭义人工智能不同,AGI需要能够在不同的情境下理解和执行从未遇到过的任务。这种无限任务的能力要求AGI不仅要具备广泛的知识和技能,还需要具备学习和推理的能力,以便动态地适应和处理新挑战。

●如何评估智能体的进步?

能力与价值双驱动,分级评估。评估智能体的进步不仅需要测试其在不同任务和情境中的能力,还需要考虑其决策和行为是否符合人类社会的价值观。能力驱动的评估可以通过任务完成度、效率和创新性来衡量,而价值驱动的评估则需要审视智能体在伦理和社会责任方面的表现。

回到人工智能的中国之问

首先,为什么中国尚未涌现出类似AlphaGo和ChatGPT的技术?这是因为,中国走上自主创新的道路比较晚。自1978年以来,中国的科学研究经历了“教学”和“跟跑”两个阶段,取得了显著的进步和成果。然后,直到2018年贸易战爆发,才迫使我国走上自主创新道路,原创性科研才真正受到重视。长期以来,我们所采用的“打篮球”式追逐策略导致了固有的评价体系和激励机制,这并不利于进行原始创新。因此,我们需要打破现有的评价体系和激励机制,实施“下围棋”的原创策略,关注整体形势而非局部胜负。

其次,为什么中国2023年出现了百模大战?互联网是有记忆的,国内经历过多次“大战”。所谓“大战”,其实是大家看好某个领域,在资本的驱动下纷纷布局同一热门赛道。在资本和流量的竞争中,只有少数企业幸存下来,成为行业巨头。然而,“大战”的本质是迅速推出仿制品,抢占市场优势地位,并非通用人工智能技术的核心突破。这些“大战”的时间越来越短,结局越来越虎头蛇尾,社会资源浪费过多,而科技和产品服务并未实现本质的发展和进步。

最后,中国的人工智能时刻何时到来?第一,我们需要加强科学普及工作,为通用人工智能“正本清源”。第二,我们要确保研究方向正确。通研院的目标是探索通用人工智能的统一理论,以“小数据、大任务”的技术范式,打造兼顾“心”和“理”的价值驱动通用智能体,推动人机共生智能社会的构建。第三,我们需要建立新型组织模式,培养实力雄厚的团队,勇于跳出内卷竞争。相信在不久的将来,我们将在某些领域取得引领世界的成果,迎来“中国的人工智能时刻”。

正如我前面提到的,我国到2050年要想建成世界科技创新强国,这其中必定要有人工智能领域浓墨重彩的一笔,最终要迎来人工智能的“中国时刻”。如何让中国思想之光成为世界典范,让科技成为承载中国道路自信、理论自信、制度自信和文化自信的一个载体、一面旗帜,也是我一直在思考的人生课题。

中国的人工智能不但要实现技术上的换道超车,领跑世界人工智能领域发展,更要从原创性上实现底层逻辑的自主、可控乃至突破;要从中国文化出发,用中国的先进哲学与文化思想去指导通用人工智能的发展,以中国之思想,创世界之科技。关于这部分,我们在《为人文赋理》这本书中进行了更详细的阐述。

回溯我和研究团队的奋斗历程,从线画的研究到智能体、智能测试平台,需要好几十年,但是放在技术革命的历史中,仿佛又是很短时间内发生的事。 h3B/NLri2aPDuQHU9eJIqAXRFhzoORIkrTT4SCSai5KT2w09QLmZHJ6fkkQxbBeJ

点击中间区域
呼出菜单
上一章
目录
下一章
×