自2022年底开始,ChatGPT热潮席卷全球,从程序员、工程师到文员、插画师,大众对ChatGPT充满了兴趣和好奇,但也引发了有些人的担心,甚至埃隆·马斯克提出要暂停ChatGPT的训练。要知道,埃隆·马斯克可是ChatGPT的创造者OpenAI的创始人之一。由此可见,ChatGPT带来的不仅是技术变革和网络热度,更是社会大众对人工智能议题的兴趣、对未来人类科技发展边界的思考。
2023年2月,美国知名科幻杂志社 Clarkesworld 宣布停止收稿,原因是他们收到了大量由ChatGPT创作的小说作品。据该杂志社透露,虽然以往也会遇到抄袭等情况,但今年这样的情况格外明显,仅仅2月份他们就已经拉黑了500余人。另外,有部分国家和地区的大学已经明确规定不允许学生使用ChatGPT写作业、论文或写代码,因为此类人工智能工具可能会产生学术道德方面的问题。
关于人工智能伦理问题的担忧并非空穴来风,2022年底 Nature 就发表过一篇名为《护理教育中的开放人工智能平台:学术进步或滥用的工具?》的文章,提出了对人工智能工具在教育中滥用的担忧。关于人工智能带来的伦理和社会治理问题,我们将在后面的章节详细讨论,但是这些争议和讨论至少说明了一点:以ChatGPT为代表的人工智能内容生成工具已经离普罗大众很近了,它们已经开始在社会中扮演重要的角色并发挥其影响力。
ChatGPT简单来说就是一个聊天机器人,是以GPT模型为基础开发出来的。ChatGPT刚火爆全球时,使用的模型是GPT-3.5,而随着训练水平的提升,现在使用的模型是GPT-4。当然,说ChatGPT是个“聊天机器人”不够准确,因为它以输入文字为主要操作方式,所以姑且称之为机器人,但实际上当ChatGPT与其他功能或平台相结合后,它将发挥更多作用。据悉,GPT-4已经具备理解图片的能力了,但是目前公众使用的版本中还没有出现此功能。
打开ChatGPT页面,用户会看见一个输入文字的对话框,然后在对话框中输入指令,点击回车,即可等待ChatGPT给予的反馈结果。用户输入的指令可以是想了解的话题,比如询问ChatGPT哪里适合去旅游;也可以是程序性的动作,比如给出限定条件,要求它写一段代码,并且让它帮忙检查已有代码的问题;还可以是事务性的安排,比如给定出行的日期,请它帮忙参考行程或会议安排。
图2.1 ChatGPT登录功能主页面
具体来说,ChatGPT可以帮助人们解决的部分日常事务和工作任务包括:
● 文本编辑:给定限制条件或关键词、关键句提示,可以生成文本,并按照用户需求进行修改,比如邮件、备忘录、演讲稿等。在反馈结果的基础上,用户可以再次输入修改要求,ChatGPT会继续执行相关指令。
● 语言翻译:输入外语语段,可翻译成另一种语言。其支持的语言数量取决于模型的训练和开发,也就是说只要是已有相关语言的模型,它都能进行翻译工作。
● 信息搜索:用户输入关键词和内容,由ChatGPT给出资料。比起传统的搜索引擎,ChatGPT的搜索功能更加集约和高效,它不需要用户在大量搜索结果中自行筛选和点击,而是直接呈现结果,如果对于结果仍有需求,用户可以继续提出指令,ChatGPT可以进行进一步的精确搜索。比如可以帮助搜索新闻、学术或专业类型的知识等。
● 技术问题处理:能够根据客户指令输出代码结果,或检查代码是否有误;也可以回答技术类问题,并给出建议和一些例子。
● 对话交流:能够根据用户输入的内容进行回复,类似于人类之间的常规对话。不同于以关键词触发或预设回复模板为基础的聊天应用,ChatGPT拥有更加灵活的回复机制,同时能够进行多轮对话,并根据与用户对话的内容进行反馈内容的调整和改进。
● 其他细节问题处理:包括计算、单位换算、语法检查、拼写纠正等。
在很多人心里,ChatGPT是一个更加高级的搜索引擎,这是个极大的误会。首先,从字面意义上来说,ChatGPT的“Chat”的意思是聊天,在计算机科学领域,它代表着聊天机器人、对话系统或对话式人工智能的应用,这和搜索引擎的定位有本质区别。其次,ChatGPT的实际功能比传统的搜索引擎更加广泛,它能从更多的层面来解决人们的实际问题。这背后蕴含着与搜索引擎截然不同的运行原理。
传统的搜索引擎,是通过网络爬虫技术,对网络信息进行抓取,然后将抓取到的网页进行分析和索引,形成一个以关键词为基础的索引数据库。当用户输入关键词的时候,搜索引擎会在索引数据库里进行搜寻和匹配,并生成一个结果列表。在结果的呈现阶段,搜索引擎会根据一定的维度,比如说关键词密度和相关性等,通过算法对结果进行排序,最终呈现给用户。用户可以选择点击具体的链接进入页面。
ChatGPT与搜索引擎的运行原理不一样,它并不是对网络上现有信息进行搜索和处理。ChatGPT是以海量数据为基础,以模型为思维方式,以算法作为思维过程,在不断的训练中“学会”知识,并形成输出能力。这个过程就好像训练一只小狗,首先给定指令,如果它能正确地完成指令,训练员就给予食物奖励,小狗就明白这是正确的。如果它没能完成动作,训练员就予以纠正,直到它能正确完成动作。在长期训练实践中,小狗会明白做什么动作能够得到食物奖励,但它本身并不能理解动作的含义。就好像一些小狗会在主人做出“开枪”动作后,倒地装死,但它不会理解“开枪”代表什么,倒地不动弹代表什么,更不能理解人类假装做这件事有什么意义。
如果说训练动物是通过食物奖励来进行,那么训练机器,则是通过模型。ChatGPT之所以看起来比已经出现的对话AI更加聪明,也能够帮助人们解决一些实际任务,原因正在于此。在ChatGPT的热潮之下,每个人都在谈论模型、数据和机器学习,但我们是否真的理解其中的含义呢?
模型是一种认知方式和信息传递的方式,是将物理世界中的具体事物转化为一种抽象的方式呈现。我们可以用简单的数学函数来理解, y = f ( x ),当输入每一个具体的 x 值的时候,就会有对应的 y 值, f ( x )代表二者映射的方式,可以是简单的线性函数,也可以是更加复杂的函数。而在模型的基础之上,进行数据输入、处理和获得结果的特定的步骤,我们称之为算法。换句话说,算法是实现模型的基础,而模型是算法结果的呈现。在人工智能知识体系中,帮助机器获得分析能力的一系列特定算法和统计学方法的合集,我们称之为机器学习。
因此,我们可以这样理解三者的关系:模型是一种表达和计算方式,算法是以模型为基础的步骤,用以解决问题和完成任务。机器学习是多种算法的集合,它以统计学作为逻辑基础,帮助机器从数据中“学到”内容,并进行预测和决策的动作。在这个过程中,机器学习是实现机器智能化的机制,算法是其手段,而模型是基础之基础。
模型就好比人的大脑,是用于思考的器官,是信息的传递、处理和输出的通道。每个人做动作、进行思考、跟别人说话都需要大脑进行指挥,但每个人具体的思维方式和表达是不同的。这就是输入相同或类似的信息,不同模型会输出不同的结果的原因。而机器学习的过程,就是不断训练的过程,让大脑不断地接收新信息,从而变得更加聪明。
首先是输入大量的数据信息,让模型这个大脑不断地处理并输出结果,然后人们对结果进行查看、核实并对模型进行调整和优化,接下来再次输入信息让模型再进行处理。长此以往,循环往复,人工智能的思考能力就会得以提升。举个具体例子,当我们希望人工智能“学会”《滕王阁序》的时候,我们需要输入“豫章故郡,洪都新府”以及后续的全文,然后不断输入和调整模型,让机器首先能够记住全文。模型本身会根据自回归生成的原理,通过上文的输入,预测和判断下文是什么。比如我们输入“落霞与孤鹜齐飞,秋水共长天一色”这句的时候,通过不断训练,模型通过概率的计算判断出“落霞”之后是“与孤鹜齐飞”而不是其他文字。通过这种方式,人工智能会“记住”这首诗。
但这还远远不够。就好比我们在教给孩子知识的过程中,需要在不同的阶段采用不同的方法。还不认识字的孩子,我们会用绘本让他们直观感受不同的物品和形象,而更大的孩子,他们具备了自主学习能力,就可以在学校跟着老师学习新知识。人工智能的训练需要经过不同的阶段:
第一阶段是预训练阶段。这个阶段就像不识字的孩子通过看图片、绘本,建立视觉能力一样,首先给人工智能输入大量的数据和信息,让模型从中进行观察和学习,了解语言的规律、结构和表达。在这个过程中,我们可以采用无监督学习的方法,即不需要使用标注的数据作为监督信号,而是为人工智能积累足够的素材,为后续模型的调整奠定基础。
第二阶段是模板规范阶段。在人工智能已经有足够预训练的基础上,使用预先设定好的模板或范式来教会它如何输出,这个部分能够帮助人工智能输入固定格式的文本,比如邮件、报告等。在这个过程中,我们需要让人工智能的回答符合一定的人类规范,比如说当有人问如何偷取他人物品时,人工智能的回复必须是此行为是违法的,不要去偷东西,而不是列出偷窃的方法和步骤。在这个阶段,我们可以采用监督学习的方法,给定标注的训练数据来提高人工智能的分析判断能力,可采用的方法包括分类(如图像分类、文本分类)、回归(如房价预测)、序列标注(如命名实体识别)等。这个阶段就是模型的不断调整阶段。
第三阶段是强化学习阶段。因为人工智能发展到一定程度,能力瓶颈会日益凸显,比如只会通过常见关键词回复的人工智能客服,并不能更精准地解决客户的问题,还会让人火冒三丈。这就好像上化学课,我们不仅需要从书本上学习理论知识,并记住各类化学方程式,还要进行化学实验,从中获得更加直观的体验。在训练人工智能的过程中,我们对它输出的结果进行反馈和调整,让人工智能与外部环境进行互动,通过结果好坏给定评估和奖惩,让系统不断优化策略,输出更精准的结果。这就是机器学习的基本逻辑。
人工智能经过大量和反复的训练,模型不断调整,系统反馈不断优化,于是从整体上看,人工智能好像变得更加聪明了,能够处理更多复杂的情况。比如,我们想知道《滕王阁序》中“落霞与孤鹜齐飞”的下一句,我们可以提问“落霞与孤鹜齐飞的下一句是什么”“落霞与孤鹜齐飞后面的内容是什么”等,人工智能在大量训练中,对不同的提问方式都能进行判断,从而输出准确的结果。
目前的ChatGPT已经具备识别不同提问方式的能力,但是从机器学习的角度来说,我们也要客观地看到,这个过程涉及很多具体的问题。
● 数据问题。机器学习需要大量的数据,同时数据的质量也很重要。如果向模型输入大量误导性信息,就会造成输出结果的不准确。
● 模型的逻辑性问题。如果向人工智能输入量化的、准确的信息,模型的处理将会非常顺畅,但如果涉及需要逻辑推理和深层次的语义理解时,目前的机器学习技术还需要进一步提升。
● 模型泛化问题。机器学习可能已经取得了比较好的成效,但是一旦接受了全新的、从未接受过的新数据,就面临无法处理的问题。换句话说,机器学习目前还是以学习过的知识为重心,对全新知识的解析能力尚不足。
● 执行层面的其他问题。比如机器学习的成本、效率和商业的平衡性问题,计算资源的充足性和稳定性问题。
影响机器学习效率和实际效果的关键因素是模型的大小,一般来说小模型带来的提升是小于大模型的。我们给定大模型一个更精准的定义,大型语言模型(Large Language Model,LLM)是由大量参数的神经网络组成的语言模型,一般使用无监督或半监督学习算法进行训练。大小模型之间的定义和划分并没有一个特定的标准,一般可以用计算量、参数量、访存量和内存占用等多个指标综合衡量,以参数量为例,小模型的参数量可以在几十万到几百万之间,而大模型的参数量可以达到几十亿之多。ChatGPT之所以让人工智能看起来更加智能化,并且确实能帮助人们解决不少问题,原因之一就在于它以大模型训练为发展思路。相较于小模型,大模型表现出以下显著的特征:
● 更长的训练时间和更高的训练成本。小模型属于短平快的模式,而大模型需要处理更多参数,因此训练时间更长。当然,模型的训练时间也受到其他因素的影响,比如计算机硬件、训练算法、超参数等。
● 反应速度相对小模型更慢。由于大模型要占用更高的计算资源,比如内存占用量更多,因此输出的速度要小于短小精悍的小模型。
● 在实际效用方面,大模型的效果要好于小模型,集中体现在结果的精准度、分析和预测的深度和准确性等方面。
● 可部署性方面,大模型需要更多算力支撑和存储空间。因此大模型在实际应用场景中,对基础设施的配置要求显著高于小模型。如果是在物理空间中配置大模型的应用场景,需要在运营维护方面投入相对多的资源。
总而言之,大模型能够让人工智能学习效果更好,输出的结果更加精准,但是也需要更多的训练时间、成本、基础算力和相关配套。
截止到2022年,已经实施的大模型包括谷歌的BERT、GLaM、LaMDA,DeepMind的Chinchilla,亚马逊的AlexaTM,Meta的LLaMA,OpenAI的四代GPT,百度的文心大模型等。这些模型均由互联网大厂牵头研发,主要原因是大模型训练成本很高,据2020年的一项研究估计,训练一个15亿参数模型的成本为160万美元。因此摆在各大公司面前的还有一个现实问题,就是未来如何在提升训练质量的同时降低训练成本。而从宏观的商业角度来说,如果人工智能大模型训练都只能由互联网巨头公司完成,其他中小型公司或初创企业毫无机会,那么是不利于整体市场环境的健康发展和更多应用场景的创新的。当然,这是另外一个层面的问题。
表2.1 国外主流大模型信息
资料来源:https://en.wikipedia.org/wiki/Large_language_model.
ChatGPT带来的大模型革命是毋庸置疑的。总体来说,大模型的发展呈现出以下特质:首先,随着算力的提高、计算机硬件性能的提高以及数据量的不断提升,未来大模型将变得更大,更大的模型会带来更加精准的算法结果,机器将变得更加智能;其次,大模型对数据质量的要求也在不断提升,数据质量集中体现在数据集的多样性、数据标签的准确性、数据的时效性和来源的多样化,同时数据中异常值、缺失值或噪声等也会影响质量。可见,未来大模型的发展需要更加高质量的数据,因此我们前文提及的大数据技术的发展也将变得更加关键,它在人工智能领域中将发挥更加关键性的作用。
同时,合成数据的使用也将成为大模型发展的趋势之一。合成数据,不同于自然采集的数据,它是由人工生成的数据,比如生成式对抗网络(GAN)、变分自编码器(VAE)和数据增强等产生的数据。合成数据在数学或统计学上能够体现数据的原始属性,因此可以在大模型训练中作为原始数据使用。由于合成数据某种程度上本身就是模型训练的产物,相较于原始数据它的成本更低、效率更高。因此,大模型在未来的发展中对合成数据的进一步使用也将是一种必然趋势。
ChatGPT的爆火,对人们的冲击面非常大,正如我们前文提到的,持有正反两方面观点的人均不在少数。暂时抛开主观论调和一些争议不谈,我们将视角聚焦于技术本身带来的不同维度的影响。
当我们在研究这一点时,不妨回顾下历史上的社会变迁。工业革命时期蒸汽机大规模使用,纺织业机械化生产,导致纺织女工失业,但这只是复杂社会的一个方面。机械化生产推动了工人阶级的诞生,也加速了城市化进程,失业的纺织女工背井离乡前往城市寻找工作机会,本身也是城市化的一部分。以工厂为基础的商人和资本家也逐渐产生,他们促进了市场经济的形成,当时工厂的管理方式也为后来的劳资关系变化埋下了种子,并推动后来的社会变革。同时,工厂的建立让管理科学也逐渐兴起,人们从重复性的劳动中获取的管理知识成为了一门学科,生产技术也与自然科学相互结合。从此,人类整体的认知发生了翻天覆地的变化。
现在的我们又何曾不是面临同样的变化?2015年OpenAI在埃隆·马斯克、阿尔特曼、彼得·蒂尔等人的共同推动下成立,其中阿尔特曼是美国头部孵化器及风险投资公司Y Combinator的总裁(后来创立了OpenAI),彼得·蒂尔是全球头部支付平台PayPal的联合创始人。就好像斯坦福大学的车库故事一样,这些人也在某个风和日丽的日子中书写了传奇。OpenAI起初的定位是一家非营利性的人工智能研发机构。
2017年Google团队发布了知名的论文 Attention is All You Need ,对人工智能的注意力(Attention)机制和编码器及解码器(Encoder and Decoder)架构进行了阐述和解析。
2019年,OpenAI发布了GPT-2模型,该模型具备15亿个参数,基于800万个网页数据进行训练。同年OpenAI公布了MuseNet,这是一个基于深度神经网络的生成模型,可以用10种不同的乐器生成4分钟的音乐作品,开拓了生成模型应用领域的新局面。
2020年,OpenAI发布了可视化工具Microscope,用于分析神经网络内部特征形成过程,同年GPT-3模型诞生,它具有1750亿个参数,是当时世界最大的大模型案例。
2021年,OpenAI发布了CLIP,它可以从自然语言监督中学习视觉概念,可以应用于任何视觉分类基准;发布了可以用于视觉分类基准的DALL·E模型,它以GPT-3的120亿个参数版本为依托,用于从文本描述中生成图像。
2022年,OpenAI通过视频预训练(Video PreTraining,VPT),在大量无标签视频数据集上训练了一个神经网络来玩 Minecraft 。年底,OpenAI发布了Whisper,这是一款语音识别预训练模型,能够逼近人类水平,支持多种语言。后来的事情大家很清楚,ChatGPT成为全球炙手可热的人工智能应用。
2023年3月,OpenAI发布多模态大模型GPT-4,据阿尔特曼称,该模型是“迄今为止功能最强大、最一致的模型”。GPT-4的使用,将极大地增强ChatGPT的能力,提高信息输出的准确度。比如,使用GPT-4参加美国的一些标准化考试,取得的成绩要远远好于GPT-3.5,因此GPT-4被寄予了厚望。
图2.2 OpenAI技术发展历程
除了技术上的积累和进步,OpenAI这些年在公司运营和商业化层面也在不断调整。2019年马斯克离开OpenAI董事会,原因是他想要获得公司的控制权被拒绝。OpenAI开始朝商业化转型,公司整体的战略从非盈利(non-profit)转向为有限盈利(cApped for profit)。当时他们面临资金紧张的情况,而微软正在发力人工智能领域,于是向他们投资了10亿美元,双方达成了长期合作协议,在微软的Azure云平台上搭建人工智能技术。2020年,微软和OpenAI进一步加强合作,微软再次向OpenAI投资,买断了GPT-3底层技术使用许可。
对OpenAI技术和商业“两条腿走路”的发展历程,我们可以从三个层面进行深度思考。首先,从公司运营和商业化层面来讲,ChatGPT大模型发展路径对资金和时间的要求极高,OpenAI在资金压力下选择了商业化转型。而对于更多的人工智能企业来说,如果要参与大模型赛道,需要谨慎地考虑技术和商业的平衡性问题。其次,ChatGPT的大规模推广会对互联网行业的商业竞争格局产生影响。作为互联网创业者、投资者或企业管理者,应当及时跟进并做好应对准备。
比如,2023年ChatGPT将与Bing搜索引擎相结合,也就是说未来用户在使用搜索引擎时,可以接入ChatGPT的功能,此举将极大地提高体验感和便利性。同时,ChatGPT与Microsoft Office软件相结合,将极大地提高办公软件的可用性。微软的这些举动被认为是挑战谷歌的搜索引擎地位,是提高自身竞争力的护城河。我们并不能说使用了ChatGPT,微软就能成功挑战谷歌搜索引擎的位置,但我们在研究和分析人工智能产业价值的时候,有必要将ChatGPT这类突破性的AIGC产品作为重要且长期的考量因素。
我们从OpenAI的发展历程和ChatGPT技术线的前进轨迹可以明显地观察到大模型不断训练带来的成效,也可以从它的火爆中观察到市场对此类人工智能应用的需求。但是,我们也应当客观地看到目前ChatGPT仍然存在不足。
从普通用户的体验感来说,ChatGPT存在着以下问题:
● 部分信息内容的模式化和单一化:在语句生成方面,当用户在某一领域大量搜索类似内容时,会发现ChatGPT生成的内容具有明显的“机器人思维”,即具有明显的模式化特点和固定的思路。对于创意工作者来说,ChatGPT提供的内容可以作为思路的补充和提示,但其创意性仍然有待提升。
● 价值观问题和主观概念:在用户输入相对主观的问题或价值观问题时,ChatGPT的回复会更加类似模板,因为主观性的问题涉及面较广,从人类情感到文化背景、风俗习惯、成长环境和自然人沟通,这些要素目前仍然难以使用模型训练的方法让人工智能完全掌握。因此,ChatGPT的社会化程度仍然不够,难以理解人类的价值导向和情感需求。
● 非量化性议题:在量化程度较低的内容生成方面,ChatGPT的理解分析能力可能仍然有待提升。由于ChatGPT是以用户输入的数据信息作为模型训练的基础,因此其接收的信息的量化程度和准确程度,决定了它的分析水平。对于历史、人文、新闻等量化程度相对低,且容易存在不同观点的内容,ChatGPT容易接收到不准确的信息输入,因此容易呈现出“一本正经地胡说八道”的结果,比如未经证实的历史信息,或将新闻人物和事件张冠李戴。
从商业模式的角度来说,目前虽然ChatGPT已经推出了付费模式,但是公司整体上并没有实现盈利。从企业健康长远发展的角度来说,商业模式和盈利性是OpenAI乃至其他人工智能创业公司都需要面对和解决的问题。该问题可以拆解成两个方面:一是如何开源,如何利用好ChatGPT发展出更多可持续性盈利业务,比如针对企业提供体系化的解决方案和客户服务,帮助企业开发智能客服等功能;或者推出更多消费级应用,例如更加精准的在线医疗咨询服务、个人用户定制化媒体服务、辅助教育培训服务等。二是如何节流,如何利用技术的发展降低大模型训练的成本和时间,形成更加高效的良性循环,以更加经济的方式让ChatGPT变得更加聪明,同时产生更广泛的应用场景。
从社会治理的角度来说,目前ChatGPT已经产生了一些影响。因为技术的进步往往比管理制度来得要快,当突破性的技术快速降临时,我们常常被打得措手不及。就像我们前文提到的不再接受投稿的科幻杂志社,不允许学生使用ChatGPT的学校,他们在新技术的冲击下,无法很快地寻找到合适的解决方法,这也是每个新技术在迈向产业化的过程中都会面临的问题。就像在汽车发明之初,没人会想到不远的未来,堵车会成为城市交通的核心问题之一,没有人会提前规划城市道路;在互联网发明之初,没人会预料到互联网信息爆炸会让通信需求不断提升,网络业态的丰富让信息安全和个人隐私保护成为了新的问题。新的犯罪形式通过互联网实施,部分人因为互联网上的虚假信息,影响到了现实生活。我们在技术产业化的过程中不断发现新问题,并通过技术、社会治理、行政等方式解决问题,然后可能会遇到更新的问题。
人工智能的浪潮势不可当,国内外多家头部互联网公司已经开启了它们的征程。
案例:谷歌——在技术和商业中挣扎
2023年谷歌发布了对标ChatGPT的产品Bard,该产品是在谷歌大模型LaMDA(Language Model for Dialogue Applications)的基础上开发而成的。Bard具备和ChatGPT类似的功能,用户可以输入指令和问题,由它给出反馈。但Bard的LaMDA模型更小,算力要求更低,与GPT模型相似,LaMDA也以Transformer架构和无监督学习方法进行预训练,但GPT更擅长处理自然文本对话,而LaMDA则更加注重多模态能力和对话场景。
目前Bard暂时不支持中文输入,但它宣称自己会100多种不同的语言。在实际试用的效果中,不少用户表达了对Bard功能的诟病。很多人猜测这是谷歌的策略问题而不是技术问题,由于担心内容生成引发的麻烦,谷歌暂时限制了Bard的语言能力和上下文理解能力。
但Bard对于谷歌的意义不仅如此,谷歌作为全球头部互联网公司,在人工智能及相关的细分领域已经有了系统性的战略部署。
从收购层面来看,2011年,谷歌收购了语音识别公司SayNow、人脸识别公司PittPatt、乌克兰面部及手势识别公司Viewdle,2013年收购加拿大神经网络公司DNNresearch Inc,美国自然语义处理公司Wavii,手势识别技术公司Flutter,机器人公司SCHAFT Inc、Industrial Perception、Redwood Robotics、Meka Robotics、Holomni、Bot & Dolly和Boston Dynamics。2014年谷歌以6亿美元收购英国人工智能公司DeepMind Technologies,这家公司后来开发出人工智能围棋Alpha Go,并打败了知名棋手李世石。在收购DeepMind后,谷歌为其提供大量资金用以研究通用型人工智能,但由于研发周期长、成本高,直到2021年DeepMind才扭亏为盈。之后,谷歌又收购了人工智能公司Jetpac、Dark Blue Labs、Vision Factory。
在产品和服务层面,谷歌也打造了以AI Infrastructure、开发者和数据科学家为主要受众的产品线,主要包括Deep Learning Containers、GPU、Tensowflow企业版、Vision AI等等。
而2023年Bard的匆忙推出,被认为是应对ChatGPT对谷歌搜索引擎业务的挑战。实际上谷歌在人工智能领域的部署,可以从几个不同的方向去理解。从商业角度来说,这一策略是出于对ChatGPT挑战的应对。长期以来谷歌在搜索引擎市场上一直处于绝对领先的位置。据Statcounter Global Stats数据显示,2022年全球搜索引擎市场份额中,谷歌为92.42%,必应为3.45%,雅虎为1.32%,Yandex为0.79%,百度为0.65%,DuckDuckGo为0.63%。而其余的搜索引擎,如Ask、美国在线AOL、Ecosia等加起来还不到1%。但ChatGPT的出现有可能挑战谷歌的地位,尤其是当它与New Bing、Microsoft Office等成熟产品相结合后,可能会形成新的用户习惯,为此谷歌必须提前应战。
在发展战略层面,谷歌面临着业绩之外的更深层次的压力——反垄断。谷歌的垄断问题一直饱受争议,并且一些国家和地区已经对其采取了措施。2016年谷歌利用搜索引擎的优势地位来推广自家产品AdSense,该产品主要提供广告服务。此举被认为是涉嫌垄断行为,谷歌因此被欧盟罚款14.9亿欧元。2018年欧盟指控谷歌利用安卓系统进行搜索引擎的预装,具有垄断性质,并提起罚款40多亿欧元,直到2022年底谷歌依旧针对此案在进行上诉。而2019年,谷歌接受了不同国家的14次反垄断调查。2021年到2022年,意大利、法国、英国、德国、韩国、印度等国多次对谷歌涉及垄断行为进行罚款或调查,涉及滥用安卓系统中的市场地位、网络广告的推广、数字广告定价的合规性、利用自身地位在广告中截留用户数据等。在美国本土,谷歌也面临着垄断地位调查和罚款的压力。2023年1月,美国司法部联合八个州起诉谷歌,认为其垄断了数字广告市场,其中还包括谷歌所在地加州,当局希望将谷歌数字广告业务进行拆分。
图2.3 接入ChatGPT的New Bing页面
谷歌在巨大的管理压力之下,战略转型是非常困难的,毕竟“船小好掉头”,而谷歌已经是一艘巨轮,调整业务重心和方向是转型的必要选择。谷歌押注人工智能领域,也是出于自身业务逻辑的调整和未来风险防范的考虑。人工智能内容生成赛道由于较高的技术门槛和成本,很容易形成天然护城河,当然未来谷歌能否借此完成业务甚至整个公司的转型,还有待时间的考验。
押注人工智能的巨头还有微软。除了投资OpenAI,微软还推出了基于Transformer架构的大语言生成模型Turing NLG(简称T-NLG),以及DeepSpeed,DeepSpeed是一个开源的深度学习库,可以用来简化大模型的分布式训练。自2017年开始,微软就通过“图灵计划”来开发大模型,目标是在构建模型的基础上,探索如何在产品中进行大规模应用。经过几年的研发,微软不仅在内部使用此T-NLG,同时也向部分合作伙伴出售相关技术。ChatGPT作为微软的作品之一,被认为是微软和谷歌在人工智能领域竞争的集中体现。
在中国,2023年3月16日互联网巨头百度推出了人工智能产品“文心一言”,创始人李彦宏在发布会上以demo视频的方式演示了文心一言的内容生成能力,包括文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。虽然文心一言的推出让百度的股价受到一定影响,主要集中在产品成熟度和功能完整性方面,但第二天部分专业分析师的测评帮助百度股价回升。近年来,百度在人工智能领域铆足了劲儿,构建了完善的人工智能领域发展路径——“all in”,即全方位布局人工智能领域,已经推出了百度翻译、AI智能驾驶汽车Apollo、小度机器人、百度地图等。其中自动驾驶汽车自2013年开始研发,目前已经处于商用测试阶段,预计在5年内实现商业化。其他互联网公司或相关的科技公司也均在布局自己的智能产品,比如华为的盘古、阿里的通义千问、360的360AI等。
这些国内外互联网公司在人工智能领域的发展思路和战略不同,但也有明显的共性:首先,技术研发与收购、投资等举措并行。人工智能从模型的研发,到机器学习的训练过程,再到最终产品落地,是一个极其“烧钱”的过程,而在目前产业价值尚不明确的情况下,自主技术研发和收购、投资都是必不可少的。自主技术研发能够帮助企业占领市场和用户心智,为更多产品的融合和新业态的推出奠定基础,而收购和投资能够帮助企业整合和集成更多资源,形成技术和商业上的合力,降低人工智能研发的成本。其次,人工智能领域的研发与几年前相比,更加重视产品和应用。这种融合体现在人工智能与自家已有产品的融合、以新模型为基础推出面朝B端或C端的解决方案服务等方面,同时这些巨头也在不断探索更多新的产业化机会。
ChatGPT只是一个新的开始,在这波浪潮之下,新的变化每时每刻都在发生。我们应当持续关注关键技术、革命性产品的发布,头部企业的重大战略信息等,以寻找人工智能大规模产业化落地的机遇与潜力。
ChatGPT浪潮不仅带来了大模型概念的普及,也对人们的固有认知造成了一定冲击,因为人和计算机的关系到了一个全新的阶段。
尤瓦尔·赫拉利所著的《人类简史》中提到“认知革命”的概念,认为认知革命从人类对自然的抗争中而来。虽然我们现在不再需要直接与大自然抗争,我们有楼房来遮风避雨,我们有交通工具来翻山越岭,我们有天气预报来感知变化,但人类实际上是相当脆弱的生物体:人无法战胜大型食肉动物,无法像食草动物一样快速奔跑,没有犬类的嗅觉,也没有鸟类的飞行能力。但人作为高等级的智慧生物,能从自然界中脱颖而出,靠的就是知识。
在新技术发明和广泛应用之前,人类的知识和认知靠语言来传播和传承,知识从人类在自然界生存的实践中积累而来。固有的知识经过总结、整理,并口口相传,从父母辈传承至子辈。在此过程中,人作为生物体,自然生命会随时间而终结,但知识却由于语言的传承而留传下来,并随着技术的进步一代代更新,新知识取代旧知识,就这样人类从猿人直立行走的时代,走到了今天。
当社会发展到了今天,我们对知识的需求不但没有停滞,反而呈指数级别增长。同时知识的获取方式也发生了翻天覆地的变化,ChatGPT给人类带来认知层面的冲击正是来源于此。过去我们依靠人类不断学习取得知识的方式,或许未来会被机器取代。ChatGPT既没有生物体出生、死亡的概念,也不需要吃喝拉撒和休息睡眠,在能够一直运行的情况下,其理论上可以一直接收新信息,不断完成机器学习并变得越来越聪明。事实上,现在已经有人通过ChatGPT参与学生们的标准化考试,并取得了优异的成绩,这证明ChatGPT在智慧的道路上已经越走越远。这也是为什么很多人开始思索人工智能的智慧边界在哪儿,能否产生更加深度的思维能力,甚至是情感感知能力。
ChatGPT带来的另外一层思索核心是语言。过去知识通过语言来传承和传播,而今天语言本身的意义和概念正在瓦解。机器翻译技术的成熟让自然人类语言的界限正在瓦解,计算机时代的到来,人们用计算机语言构建起与机器沟通的桥梁,而人工智能时代的到来,自然语言识别技术兴起,人们可以直接用自己的语言同机器对话。人和机器的沟通成本和门槛大幅度降低,每个人都可以用人工智能来做一些事情。当然,新的沟通需求也在不断产生。