徐立
上海交通大学校友会人工智能分会副会长,计算机科学专业2004届本科、2007届硕士校友,商汤科技联合创始人,首席执行官。
随着人工智能探索的深入,人类原有的认知边界不断地受到冲击。在归纳与演绎的基本范式之上,人类思考的范式正在发生怎样的变化?本文将带领大家站在认知的边界,走进新的思考范式,展望人工智能给人类生产带来的巨大变革。
关于人工智能的认知存在两个维度,其一是我们对技术本身的认知,其二是人工智能自身帮助我们去突破下一个阶段认知的边界。回望过去三百年人类的发展史,每一个时代跨越的最后驱动力都是技术,技术是时代背后真正意义上的发展引擎(见图1)。
图1 技术范式的变革带来经济可持续增长
熊彼特认为,创新是“企业家对生产要素的重新组合”。周期性的经济波动正是起因于创新过程的非连续性和非均衡性,不同的创新对经济发展产生不同的影响,由此形成时间各异的经济周期。基于熊彼特跳跃式创新的理论,在人类文明快速发展的曲线中,我们不难发现每一个阶段的跨越式发展,都会出现非连续的点,也即斜率的改变(或非连续)。这也是每一项技术在真正意义上推动经济发展的关键节点,而每一个关键节点又至少面临两个阶段:其一是技术的实用阶段;其二便是技术降低成本阶段。而这两个阶段背后的内在核心则体现在以下两个方面。第一,一项新技术极具实用性,甚至发展到能在行业内实践落地提高生产效率,可仍旧面临巨大的挑战——认知的建立。例如,交流电刚为人所用时,人类却更担心其会不会电死牛。又如,汽车刚刚问世时,英国颁布了《红旗法案》,这项法案就是因为当时的人们担心行驶在马路上的汽车会惊吓到马而制订的,在“马路”上开汽车,那必然不能吓到马。人们通过《红旗法案》,要求在汽车前50米以外的地方专设人岗挥舞红旗,告知大家有汽车来了。没有人意识到,汽车的发明是为了取代马,成为新的交通工具。这是交通方式的颠覆,更是认知建立的过程,需要较长的实践不断地教育和影响,通过新技术的使用逐渐重建人类认知。第二,如果一项新的技术无法使生产成本降低,甚至反而使成本普遍变高,这也就意味着行业内并没有办法发生颠覆式的变化。
所以,真正意义上的产业革命分成两个阶段。第一个阶段是技术能够在行业中落地可行。任何技术如果只是技术上的突破和发展,一定程度上就只会受到学术圈关注,人工智能行业尤其如此。人工智能在过去的10~20年间其实并不是热门的行业,虽然已经出现了计算机视觉、语音识别等专业方向,但从未认为这就是人工智能,也不会认为我们正在从事的就是人工智能。并且每个方向都有自己的领域专家,相互之间也并没有交集,在各自领域都认为自己的解决方案和技术是最佳的。这也正是因为没有真正应用到工业中,无法鉴别更无法向他人说明方案的优劣。而如今,当技术在产业中实现应用,形成了“车同轨、书同文”的统一,能够实现在一个基准上的比较,也即产生了人工智能的行业,这也正是我们所谓的工业红线。但是跃过工业红线,其实还不是真正意义上技术赋能产业的一个标志。真正的标志,也即第二个阶段,就是做到大规模的机械化生产,实现成本真正的降低,只有把生产要素成本降到原来的1/10甚至1/100的时候,它才能变成这个时代的标志(见图2)。
图2 蒸汽时代的二阶段跨越
人工智能行业类似于其他新技术的变革,同样也经历了两个阶段。第一个阶段,也就是在2010年之前,姑且称为“人工指导智能的时代”,但当时的人工智能都非常依赖于人的先验知识。例如,对于数据的分布,我们有很多很强的人类先验,所以才能做预测,从而可以判定它是多模态的混合高斯,或者判定这是正态分布。这也正体现了“人工指导的智能”最大的局限性——它的上限是人,意味着它无法超越人。这就注定了,在现实生产的场景中,它很难形成大规模的行业使用。
那又是因为什么使得人工智能能够应用到大规模生产中了呢?驱动人工智能实现第二阶段发展的要素又是什么?第一个要素是大数据的发展,即数据驱动;第二个要素是背后的算力,它给予人工智能一个强大的探索解空间的能力,算法本身又可以对这个世界进行有效的表达。此时,它完全不依赖于人了,也就有可能超越人。
2013—2014年间,我们可以看到在很多垂直领域中,人工智能能够超越人。在人工智能领域,能够在工业应用中超越人,就可以视为达到了工业红线的标准之一,当然还有一些更高的其他标准,所以这仅仅是第一个阶段。
从第一个阶段到第二个阶段,实现真正的商用,存在的壁垒就是它的生产成本过高、无法产业化,就如同前文提到的,在工业制造中面临着同样问题(见图3)。
图3 AI时代的二阶段跨越
作为AlphaGo的继任者,大家普遍认为AlphaZero在围棋这个领域确实是超越了人。我们做个不恰当的换算,AlphaZero从开发到应用的整体成本在30亿元左右(甚至更多),与全国职业棋手成本总和相比,如果希望AlphaZero能够取代职业棋手,可能需要70年才能够回本。让我们把应用场景切换到工厂,改造生产线升级换代的代价是70年才能够回本,那我相信并不会有哪家工厂愿意做生产线的改造升级。这也正是当下我们所面临的一个现状。
在这两个阶段中,我觉得第二个阶段更能够触动整个行业的发展和变化。把第一个阶段称为“顶天立地”,那么第二个阶段就可以称为“铺天盖地”。我们先来看看:“顶天立地”的条件是什么,为什么我们现在有机会做到“顶天立地”?这就需要了解人类真正意义上的认知创新是怎么做的。
如图4所示,人类对两个传统的创新范式的应用已有多年的历史。第一种范式是亚里士多德提出的推理演绎的范式,从一个基础的原点出发,往前一直推演到无穷的边界。甚至可以说今天所有的科技在西方治理的模式,都是采用推理演绎的范式,它正一步一步走到最强的边界,虽然这个边界目前来说还远远没有达到,但也一定要探索那个边界存在的可能性。
图4 科研创新的范式
而培根认为其实人类创新存在另一种范式,叫归纳,虽然看似很容易理解,但是这个范式经历了上千年才发展出经验归纳的范式。其实,归纳也是人类突破认知的一个核心理解。为什么这么长时间之后才形成经验归纳这一范式?最核心的一个原因是人类以前并不自觉自己的无知,武断地认为对任何事物的解释都能够用一种通用的方法,也即GUT(grand unified theory,大统一理论)。原来我们认为任何事情都能够推到边界,直到后面发现并不能,所有事物的发展只能在特定的时空条件下往下走,所以归纳才有了被世人发现的可能。
2007年,图灵奖得主詹姆士·格雷(James Gray)提出了人类历史上的第三、第四范式。我将第三、第四范式与第一、第二范式联结起来。姆士·格雷认为第三范式是计算机模拟(computer simulation)。模拟,可以简单理解为计算机代替人类做推理演绎,只要给出一个基点,计算机就能开始运算。用计算机做演绎就是仿真模拟,而用计算机做归纳,就是第四范式——大数据(big data)。因为,由数据来做归纳,才是数据被提出的意义所在。
值得一提的是,人类真正的脑洞或者说真正的非连续的变化,不是演绎(deduction),也不是归纳(induction),而是天才的猜想(conjecture)。好比掉到牛顿头上的苹果,我们不可预测什么时候苹果会掉下。爱因斯坦小时候做梦,梦到自己乘坐了一个光线。可以说,人类历史上的科研突破,基本上都是在做“不靠谱”的思想实验——既没有立足的基点,也没有后面的推理。这种突发式的思想实验到最后被验证,称为“天才的脑洞”。为什么天才的猜想一直无法成为人类历史上科研创新的范式?因为范式是可以预测的,但是猜想无法预测,所以就一直没有人把它纳入范式当中。
图灵在1950年提了一个问题,“Can machine think?”(机器会思考吗?)在图灵提出这个问题70年之后,我们其实可以问一个问题“机器会猜想吗?”答案是肯定的。有了这个变化之后,人类对世界认知的模式就发生了巨大的变化,因为机器的猜想这件事情是可规模、可复制的。
以AlphaZero为例,围棋的复杂度是3的361次方,有10的170次方种可能的走法,虽然并不是我们求解问题里最为复杂的,但它足以证明这就是机器的猜想。宇宙中的原子数是10的70次方个,假设每一个原子都是一台超级计算机,每秒计算1亿亿次,那么从宇宙大爆炸开始算到今天也算不完围棋的所有走法。换言之,也就是人类现有的认知是无法得到一个确解的。而AlphaZero根本就不是在求解,它猜了一个让我们觉得似乎是对的解,这就是AlphaZero的猜想。
这也正解释了,在AlphaZero问世之初,人类对它的质疑。人们出于对人类智慧的信心,认为在围棋这件事情上机器不可能超越人类。然而,它最终给出了一个比人类的解更好的猜想。正如职业棋手在解读AlphaZero下棋时,也无法理解其每一步的用意。
机器的猜想能否真正推动人类文明的进步?如果今天的计算机或者人工智能能够很容易地猜想出牛顿定律,而牛顿可能在200年之后才出生,那我们是否要应用机器猜想的牛顿定律?这可能受限于人类认知的两个方面。第一,人类的认知是否能匹配上过于超前的猜想?我们要首先确定在现代的时空环境下,牛顿定律可以被使用。好比在亚里士多德时代,我们向他解释牛顿定律与力相关的概念,他可能还能够逐步理解,但如果我们向他解释相对论,告诉他光是会弯的,他可能就会发问“光是什么”,这就是猜想过于超前于认知。第二,人类的认知又是否能判断出具有价值的猜想?机器能够给出一个很好的猜想,但可悲的是人类在这个时间点上,没有办法识别哪些是真正有战略价值的、能够深挖下去的猜想,因为其中一些猜想超越了人类的认知,无法对其进行价值判定。
当然,机器给出的猜想也并不都对,之所以说机器的猜想只是猜想,是因为现在的有穷的计算能力(或者说有穷的能力),无法给出一个确解。因此,我们借鉴人类的发展历史,在应用中测试边界,用这个边界反过来规范(或进一步解释)我们当下所探索并使用的猜想。那么,我们必须在创新链中加速使用,才能够真正用好我们猜出来的“牛顿定律”。
人类一直认为自己对这个世界有很好的把控,实际上都是在应用中找到边界。西方在人工智能使用中(特别是欧洲),给出的四个原则里最核心的原则是可解释性(explainable),例如对于无人驾驶就要解释为什么汽车在这个场景下会有拐弯的行动;又如AlphaGo下棋就要解释为什么这一步要下在这里。虽然在中国也有非常多的学者在提倡可解释性的人工智能,但是在实际应用的场景中这并不可行。
人类社会对一种新事物产生信任,往往并不是因为它能够被完全解释,而是因为人类在应用它的过程中找到了边界。例如,直到今天,流体力学、伯努利定律等都无法完全解释飞机起飞的动力,但并不是所有人都觉得乘坐飞机很不安全。摩擦力其实也没有完全解释自行车为什么能够平衡不倒,同样直到今天物理学也无法完全解释,但也并没有人因为无法科学解释自行车的平衡而不骑自行车了。因为我们已经司空见惯,在应用当中,已经探索到了边界。同样的,人工智能在应用中也不需要每一步都是可解释的,关键是要探索它能不能解决问题。
很多人认为人工智能能否真正解决问题,有赖于大数据(数据驱动),而我们认为解决问题的关键是算力。我们正在推动一个人工智能大装置的实现,之所以称之为大装置,是因为我将其类比为粒子对撞机。粒子对撞机是在1956年发明的,它用随机过程理论构建物理学基本定律,找到它即探索世界的规律。其实今天的人工智能也是如此,用随机的碰撞找到定律。过往的十年当中,最好的人工智能算法,对于算力的需求增长了100万倍。这里面有诸多的算法是没有用大量数据的。
例如AlphaZero就可以称为零数据,因为它自身的围棋技术已经足够强大,以至于能够通过迅速自学围棋,以100∶0的战绩击败“前辈”AlphaGo。素食肉制造商AlphaFoods解决了通过人造肉提供植物蛋白营养的问题,同样数据量也非常小。现实生活中往往是通过小量数据解决大量问题,尤其在细分的工业场景下是没有这么多的数据的。例如医疗,我们通常会信任某一位老专家的医术,但实际上他花一辈子的时间接触的病例数也是有限的,按照一位医生一天看40张片子的极限标准,他也需要500天才可以收集完它的数据来做训练模型。
所以很多的问题都不是大数据的问题,真正需要面临的其实是算力。为了进一步提高算力,我们还可以这样做。
第一,融合跨行业的数据形成一个更大的通用模型。很多人会困惑我们既做智慧城市,又做自动驾驶的感知,从来没有人把车的自动驾驶和智慧城市当成一件事情来做。不难发现,这两个事物是同一个场景,涉及的都是人、车、物。好比在一楼看这台车和在二楼看这台车,肯定是调用同一个识别算法,并没有理由要机器使用两种不同的算法。而感知本身是一个近邻问题,近邻问题是类越多,越触类旁通。因此,解决此类问题就要用巨大的跨模态数据来解决通用性问题和泛化问题,而我们现在就是用通用的模型来推动大算力的变化。
第二,对铺天盖地的问题,通过满足长尾需求来完善价值闭环。其实,自然界的很多现象都是长尾的现象,例如自然图像的梯度等。互联网过往发展的20年,最大的贡献就是解决了长尾的匹配。我们可以满足一万个人的需求,但是不满足两个人的需求,那就不是互联网的技术。互联网兴起是伴随着搜索引擎兴起的,就是在解决长尾匹配问题。而后,包括电商等领域,乃至现在互联网的整个业态,都在解决长尾匹配的问题。
也有人认为线下跟长尾没有关系,但实际上,线下的应用特别像工业、城市治理等都是要完成长尾的链条的。在城市治理的场景中,一些恶性突发或自然灾害事件,可能一年并不会时常发生,也可能涉及面也并不广,但是并不能够无视或忽略。只有把所有的问题全部解决了之后,才会形成长尾价值闭环。在这件事情上,目前的技术是可行的。人工智能可以给这个世界提供一个超强的基础设施。例如,每一个人一天遇到600件物品,每3件东西如果形成一个“检测员”,一共有3 400多万种组合。也就是说有3 400多万个人工智能模型,这就可以实现在真实世界当中形成互联网。这上面做的所有的应用,不管是机械制造的应用,还是无人驾驶应用,都可以形成一个整体。我们现在也只能实现2.2万个人工智能模型,与3 000多万个存在天差地别,这也是今天不能做全面数字化转型的核心所在。在工业场景的应用中,高铁架空电缆的缺陷,出现的频率极低,比如调弦、接揉、断丝。在检测缺陷的过程中,如果我们只靠算法或人工智能解决一部分缺陷,剩下的个别缺陷需要人工解决,那么这在商业中是不被接受的。只有当我们完成了几千种缺陷全覆盖,才能够彻底替代人工,所以这也是在解决长尾问题,并不是只解决头部问题就能够解决问题了,只有完成所有才能形成价值闭环。在智能交通的场景中,我们发现交通这个问题是更大的开放问题,10的一千多次方的复杂度,使得这个问题比围棋更复杂。目前来说,人类社会是不可能彻底解决交通问题的,真正意义上能够做到在10的一千多次方开放问题下给出一个猜想的解,恐怕只有机器能够做到。那对于交通问题而言,只能逐步改善,我们也还是通过全局优化的模式来实现,在有些地方尝试能够实现例如降低车辆等待时间等。
我们可以看到,未来在这种开放环境下,机器可以给出非常多的猜想,而在这些猜想中,我们需要找出哪些是现在人类这个世界里认知能够接受的。
通用人工智能基础设置极大降低核心生产要素成本,有机会成为这个时代的标签。根据中学课本和百度百科的定义,以政治、经济、文化等状况为依据而划分的时期叫时代。但历史上我们熟知的命名时代的词汇正是代表当时生产力的技术。例如“蒸汽时代”“电气时代”,甚至是“石器时代”“铁器时代”,再到“信息时代”。由技术命名,其背后原因可想而知,技术带来了生产力跳跃式的变化,使其成为改变政治、经济、文化的背后驱动力。
但实际上也有一些技术并未用来命名时代。我在上海交通大学读书时,有学者提出21世纪是生命科学的世纪,因为当时以克隆羊为代表的克隆技术非常火。但克隆技术之所以没有成为时代的标签,除了它的发展仍有很长一段路要走,核心原因在于它并没有改变我们生产要素的价格。而这一点人工智能却能做到。
有一本书叫《预测机器:人工智能的简单经济学》,其介绍到当某种基础产品的价格大幅下降的时候,整个世界都会发生变化,书中对大幅下降的定义为下降至1/100。人工智能模型的生产成本,人们花了三年时间降至1/300。所以我认为今天的人工智能实际上处在了从“顶天立地”走到“铺天盖地”阶段,而且我相信只有做到“铺天盖地”,它才能够真正成为一个时代的基础设施。
最后谈谈商汤,我们的logo(标识)由一个设计元素和“商汤”两个汉字共同组成。当初在设计logo时,设计师提议,作为一个国际化的企业,出海时应该换一个只有英文或只有图像元素的logo。例如华为在进军美国市场时用了拼音,进入欧洲市场时则只留了图像元素,就是为了公司能够国际化一些。于是我就问他:为什么汉字不能帮助企业树立国际化形象呢?他说汉字跟科技关联不起来。还存在国际上很多人以为中国人缺乏契约精神,不尊重专利等因素。这不就是一代人的认知吗?这个认知实际上也是在发展中的,如果没有人勇于改变这个认知,那么汉字和科技就永远关联不起来。我们要做方块字与科技关联起来的第一代的人,打破认知的边界。
所以我们出海伊始就坚持不换logo,带着两个巨大无比的方块字与各方打交道。我记得有一年商汤参加在中东举办的一场叫作AI everything的活动,当时有两万多人参加,在当年参加的中国企业当中,我们是唯一一个logo中带着中国字的。希望通过我们这一代人的努力,能够从真正意义上实现将高科技跟我们的汉字联系起来,改变一些行业的认知。