2022年9月,全球风险投资机构对生成式人工智能进行大规模投资的前夕,红杉资本发表了一篇预测性文章《生成式人工智能:创意新世界》(Generative AI: A Creative New World),提出“预计AI的杀手级应用即将出现,比赛开始了”的判断。
所谓“生成式人工智能”是指:机器比人类在分析方面做得更好,机器分析被称为“分析人工智能”或传统人工智能,但人类不仅擅长分析,还擅长创造,现在,机器刚刚开始擅长创造有意义和美丽的东西,这一新类别被称为“生成式人工智能”。也就是说,现在机器不仅能够分析已经存在的东西,还开始创造全新的东西。
按照红杉资本的梳理,人工智能发展历程目前可以分为四个阶段,而我们现在正在进入第四个阶段。
● 阶段一:小模型至上(2015年之前): 将近10年前,小模型被认为是理解语言的“最先进技术”。小模型擅长分析任务,并可以用于从预测交货时间到欺诈分类等工作。然而,小模型对于通用生成任务的表达能力不够,生成人类水平的写作或代码仍然只是一个梦想。
● 阶段二:规模竞赛(从2015年开始): 谷歌研究院的一篇里程碑式论文《注意力是你所需的一切》(Attention Is All You Need)描述了一种用于自然语言理解的新型神经网络架构,这种架构被称作transformers。它可以生成高质量的语言模型,同时可并行性更强,训练所需的时间也大大减少。这些模型是小样本学习器,可以相对容易地根据特定领域进行定制。
而随着模型越来越大,其表现开始与人类水平相当,然后是超人类水平的结果。从2015年到2020年,用于训练这些模型的计算量增加了6个数量级,其结果超过了人类在手写、语音和图像识别、阅读理解以及语言理解方面的性能基准。其中,OpenAI的GPT-3脱颖而出,该模型的性能比GPT-2有了巨大的飞跃。
尽管基础研究取得了很大进展,但这些模型并没有得到普及。它们体积庞大,难以运行(需要图形处理器协调),不能广泛访问(不可用或仅为封闭测试版),而且作为云服务使用成本高昂。尽管存在这些限制,但是最早的生成式人工智能应用已经开始进入战场。
● 阶段三:更好、更快、更便宜(从2022年开始): 计算变得越来越便宜,如扩散模型(diffusion models)等新技术降低了训练与运行推理所需要的成本。研究界不断开发出更好的算法和更大的模型。开发人员的访问权限从封闭测试版扩展到了公开测试版,或者在某些情况下是开源的。
对于那些一直无法访问LLM(大语言模型)的开发人员来说,探索和应用开发的大门现在已经打开,应用开始绽放。
● 阶段四:杀手级应用出现(现在): 随着平台层的稳固,模型不断变得更好、更快、更便宜,以及模型访问趋向于免费和开源,应用层的创造力爆发时机已经成熟。
我们期待这些大型模型能推动新一轮的生成式人工智能应用,正如移动设备通过GPS(全球定位系统)、摄像头和随身连接等新功能释放出新应用一样。红杉资本预测:正如十年前移动技术的拐点为少数杀手级应用开辟了市场,预计生成式人工智能也将出现杀手级应用。比赛已经开始。
而促使红杉资本发表这一预测的直接原因是:2022年4月,一家位于硅谷的人工智能初创公司突然点亮了整个美国创投界,它就是此后照亮了全世界的OpenAI。
2015年,非营利组织OpenAI由特斯拉的创始人埃隆·马斯克和硅谷著名孵化器YC的前总裁萨姆·奥尔特曼等人共同出资10亿美元创建。
后来,奥尔特曼在接受《纽约客》采访时曾经提及为什么他要去帮马斯克创建OpenAI。大概意思如下。
28岁这一年,奥尔特曼突然意识到:人类不是独一无二的。很快,计算机就能够复制他们的大脑。在某些方面,人类可能还具有特殊性,比如创造力、灵感、感受情绪的能力,但是很快计算机也会有自己的欲望和人生目标。
奥尔特曼说:“当得知智能可以被模拟时,我就不再认为人类有什么独特性了。而且相比于人类,机器还有很多优势——人类在输入和输出方面太慢,每秒只能学习两个bit数据,但是对于计算机,这简直就是慢动作。”
2003年,瑞典哲学家尼克·博斯特罗姆曾经提出一个著名的假设:如果我们对一个全能的人工智能下命令,要求它制作尽可能多的回形针。那么,在没有其他指令的情况下,它就会耗尽地球上所有资源来制造回形针——包括你、我身体里的原子。
也就是说,人工智能将变得无比强大,但是它没有人类的价值观。于是,为了帮助全人类做战略防御,奥尔特曼决定与马斯克一起创立OpenAI。
他们模拟的敌人,就是谷歌旗下的DeepMind。因为如果世界上只有一个DeepMind,那么假设有一天DeepMind出了问题,也许就会出现一个不朽的超级独裁者。这个独裁者会杀光所有竞争对手的研究人员,就像修改一个程序的bug(漏洞)一样。
而OpenAI的第一个任务,就是要从谷歌和脸书等美国科技巨头手中夺取人工智能的人才。
不过,OpenAI也有自己的问题。因为它的出发点是完全“防御性”和“利他性”的,所以没有人知道它想要什么——它的欲望是什么呢?(尤其是在威胁还没有发生时。)这就像一个创业者昭告天下他要创业了,但是他的行为方式却像在“带发修行”一样。
OpenAI募集了10亿美元资金,雇用了一支由30名研究人员组成的超级强大的团队。他们想干什么呢?
马斯克后来帮助OpenAI提出了一个策略:最好的防御方式,就是让尽可能多的人拥有人工智能。因为如果世界上每一个人都有人工智能的能力,那么就没有任何一个人或者一小部分人可以拥有人工智能的超能力。
这也奠定了之后OpenAI商业模式的基础,那就是:向全世界出售自己的AI产品许可。
2022年4月,OpenAI向公众发布了自己开发的机器学习模型DALL·E2,专门用于从自然语言描述中生成数字图像;同年7月,OpenAI开始出售DALL·E2图像生成软件的许可。很快,DALL·E2就正式开启了硅谷社交媒体上的一场AI生成艺术盛宴。
不过,让OpenAI始料未及的是:从2022年7月开始,整个硅谷和欧洲都出现了几家被全球科技界疯狂关注的生成式人工智能初创公司。其中,Midjourney公司的产品是一款精美的艺术生成器。它没有网站,功能全集成在Discord(专为社群设计的免费网络实时通话软件与数字发行平台)的一个频道里,并且很快就积累了约300万用户。人们使用这款软件,可以在几秒钟之内就生成精美而富有诗意的图片。例如,当你输入提示词“rain and yellow light”(雨和黄色的灯光)时,Midjourney能够在几秒钟内生成一张“一个撑着伞在柠檬黄的夜灯下孤独行走的人的背影”的图片。
戴维·霍尔茨是Midjourney的创始人。他这样形容自己对生成式人工智能的理解:
“我们不认为这真的是关于艺术或者制作深度伪造品,而是关于——我们如何扩展人类的想象力。因为当计算机的视觉想象力比99%的人类更好时,这意味着什么呢?这不意味着我们将停止想象。汽车比人类行走的速度快,但这不意味着我们停止了步行。当我们要把大量的东西移动很远的距离时,我们需要飞机、轮船或汽车。因此,我们将这项技术视为——‘想象力的引擎’。”
开源人工智能软件也在这个时候兴起——Stable Diffusion的突然出现,让整个人工智能世界都大吃一惊。通过使用Stable Diffusion,包括Stability AI和后来大名鼎鼎的Runway在内的人工智能初创公司,已经为它们的客户开发了内容创建工具。
到了这个时候,全球创投界已经涌现出了大量狂热的技术,生成式人工智能初创公司获得融资的消息,也频频出现在美国媒体和各大科技网站上。与此同时,美国创投界的思想家们纷纷发表自己的看法。其中,萨姆·奥尔特曼的两段话广为传播:
“生成式人工智能提醒我们,人们很难做出有关人工智能的预测。十年前,传统观点认为:人工智能首先会影响体力劳动,然后影响认知劳动,最后,也许有一天它可以做创造性工作。现在看起来,它会以相反的顺序进行。”
一时之间,有关生成式人工智能的创造竞赛,以小时为单位在全球范围内展开。但仅仅是在几个月前,硅谷还笼罩在一片乌云之中。
2022年第一季度,全球风险投资活动出现回调,全球风险投资总额为1600亿美元,这是12个月以来的第一次下降。这种回调,当然与美股二级市场的“崩溃”有关。事后的一系列数据表明:此后,全球风险投资将快速地,甚至也许是残酷地,从一个超级泡沫化、繁荣的环境,过渡到一个许多交易都没有完成的环境。
但是有关生成式人工智能的投资,却很快又“咆哮着”回来了。
这种从黑暗的萧条、跌宕起伏到兴奋的转折能力,也许正是硅谷创业界创造未来的核心力量。风险投资界已经跃跃欲试。
正如红杉资本在《生成式人工智能:创意新世界》一文中所说:“生成式人工智能还处于很早期。平台层刚刚好,而应用空间几乎还没出现。但预计AI的杀手级应用即将出现,比赛开始了。”