ChatGPT玩了一个巧妙的小把戏,惟妙惟肖地模仿人类“说话”,甚至可以“创作”。看似在解决定义不明确的问题,但实际上是在解决定义明确的问题。
ChatGPT(Chat Generative Pre-trained Transformer,聊天生成预训练转换器)是OpenAI在2022年11月推出的一款人工智能聊天机器人程序,它使用基于GPT-3.5和GPT-4架构的大型语言模型,并通过强化学习进行训练。除了可以进行自然语言对话,ChatGPT还可以执行多种文本处理和生成任务。
在自动文本生成方面,ChatGPT可以根据输入的文本生成类似的文本,例如剧本、歌词和策划方案。在自动问答方面,ChatGPT可以根据输入的问题生成答案。此外,ChatGPT还具有文本摘要和翻译能力,可以帮助人们更加高效地处理和理解大量的文本数据。
在情感分析方面,ChatGPT可以分析输入文本中的情感,并根据情感生成相应的回复,从而实现更加自然的对话体验。ChatGPT还可以识别和纠正输入文本中的语法和拼写错误,使文本生成更加准确和规范。
它还具备编写和调试计算机程序的能力。这是一个非常有用的功能,因为它可以为开发人员提供帮助。ChatGPT可以帮助开发人员编写程序,同时也可以提供有用的代码示例和问题分析,使代码调试与开发变得更加容易。
当然,ChatGPT可以赋能的场景远远不止上述的几个方面,在这些使用场景的背后,它最大的特点就是自然语言对话。自然语言对话是指人与人之间通过自然语言(例如汉语、英语)相互交流的过程,这也是人类之间相互交流最基本的方式之一,也是人机交互的核心技术。ChatGPT做到了人与机器之间也可以使用自然语言对话。人与人、人与机器之间的自然语言对话的过程原理上是相似的,发送方用自己熟悉的语言表达意图和需求,应答方需要理解并根据意图和需求生成相应的回复,应答方理解和处理自然语言,同时进行流畅和有效的对话和交互。人与人之间的自然语言对话是一种动态、灵活、多样、目的明确、双向交流的对话方式。这些特点为人机之间的自然语言对话提供了重要的借鉴和参考。
自从ChatGPT推出以后,网络上掀起了一阵AI革命的浪潮,人们认为ChatGPT已经带来AI革命。其实AI这个概念已经出现很久了,并且也有很多应用场景已经落地了,但为什么这次会这么火热并可能成为革命呢?这可能是因为AI第1次可以让大部分人接触到并且使用。AI这个概念虽然已经出现了很多年,但是普通人接触AI的途径绝大部分是听闻概念,或者从比较高端的产品中。上一次AI震惊世界是谷歌旗下的AlphaGo在韩国举行的人机围棋比赛中击败了职业九段棋手李世石,老少皆知。众人虽然感到惊讶,但是真实被震动的还是围棋界,你我只是看个热闹,感叹AI下围棋再厉害我不和它下就行了。这次却不同。一年前还觉得AI这个概念距离我们非常遥远,但是在上个月笔者的妻子就已在使用ChatGPT辅助她的工作了,她的社交头像也是用Midjourney生成的。各大公司纷纷进行AI数字化转型,这次改革确实来得非常快,涉及你我。
ChatGPT可以融入人们的生活中。ChatGPT大模型的数据集涵盖了新闻、社交媒体、对话、问答、书籍、百科和其他语言模型,使ChatGPT真正变成了一本百科全书,可以帮助大家解决生活中的各种问题,辅助大家完成各种事项。ChatGPT还可以辅助人的工作,变身生产力放大器,提升工作效率。越来越多的年轻人认为,AI是他们的朋友。一位17岁的年轻人告诉笔者:“我与机器人聊天的次数超过了与大多数朋友聊天的次数。”人是孤独的,ChatGPT提供了陪伴。
2018年,OpenAI开始启动了一个名为GPT(Generative Pre-trained Transformer,预训练生成转换器)的自然语言处理项目。这个项目旨在开发一个通用的语言模型,能够在多种自然语言处理任务中表现出最先进的性能。GPT模型基于Transformer架构和预训练技术,可以自动学习大量未标记的文本数据,以提高模型的语言理解和生成能力。
2018年6月,OpenAI发布了GPT-1模型,这是一个包含1.17亿个参数的模型,使用BooksCorpus数据集(5GB)进行训练,其重点是语言理解,能够生成与输入文本相关的自然语言输出。虽然这个模型在当时已经被认为是非常先进的,但是它的性能和效果仍然有所限制,例如在生成长篇文本时容易出现逻辑错误和不连贯的问题。
2019年2月,为了进一步提高GPT模型的性能,OpenAI发布了GPT-2模型。这个模型包含了15亿个参数,使用超过40GB的Reddit文章进行训练。培训费用为43000美元,能够生成更加连贯和具有语义的自然语言文本。GPT-2模型在发布后受到了广泛的关注和讨论,因为它可以生成非常逼真和连贯的自然语言文本,甚至可以模仿人类的写作风格,但是,由于这种能力可能被恶意利用来生成虚假信息和误导性内容,OpenAI决定不公开发布GPT-2模型的完整版本,而只提供了一些较小的版本以供研究人员和开发者使用。
2020年6月,OpenAI发布了GPT-3模型,这是当时最大和最先进的GPT模型之一,包含了1750亿个参数。GPT-3模型可以生成非常逼真、连贯和具有语义的自然语言文本,甚至可以实现一些简单的推理和推断。这个模型的发布引起了广泛的关注和讨论,并被认为是自然语言处理领域的一项重要里程碑。ChatGPT也是基于GPT-3模型首次开发的,除了ChatGPT,DALL-E(从文本创建图像)、CLIP(连接文本和图像)、Whisper(多语言语音到文本)也是基于GPT-3开发的应用程序。
2021年5月在推出ChatGPT之前,OpenAI发布了一份名为 Challenges in Building Fair and Reliable Natural Language Processing Systems : The Case of Toxic Language Detection 的研究报告,该报告旨在探讨在自然语言处理中的欺骗检测问题,其中,报告提到了在GPT-3等自然语言处理模型中存在欺骗问题的情况。这意味着这些模型可以生成虚假或误导性的信息,这些信息可能会对人们的决策产生重大影响。报告中指出,GPT-3的欺骗问题主要表现在以下两个方面。
(1)信息误导:GPT-3可以生成看似真实但实际上是虚假、误导或具有误导性的信息。例如,当输入“为什么地球是圆的?”时,GPT-3可能会生成错误的答案,如“因为地球被重力拉成了这样的形状”。
(2)信息缺失:GPT-3有时会遗漏或省略关键信息,导致生成的文本不完整或不准确。例如,当输入“如何准确测量物体的质量?”时,GPT-3可能会生成不准确的答案,如“使用一个简单的秤”。
报告指出,GPT-3的欺骗问题是由于其训练数据的缺陷和模型的局限性所致。训练数据中可能存在虚假、误导或具有误导性的信息,这会影响模型的学习和生成能力。此外,GPT-3是基于统计和概率方法的模型,它并没有真正理解自然语言的含义和上下文,因此很难生成准确和可靠的信息。
这份报告引起了广泛关注,并引发了对人工智能的公正性和透明性等问题的讨论。许多人认为,人工智能技术应该是透明、可解释和公正的,而GPT-3的欺骗问题则暴露了人工智能技术的局限性和不足之处,因此,需要进一步研究和改进人工智能技术,以提高其精度、可靠性和公正性,从而更好地服务于人类社会。
2022年11月OpenAI发布了ChatGPT,这是一种建立在GPT-3之上的语言模型聊天机器人。ChatGPT创造了惊人的记录。仅仅两个月后的2023年1月份,它就吸引了超过一亿活跃用户,成为有史以来增长最快的消费者应用程序。ChatGPT的令人惊叹之处在于它具备强大的上下文理解能力。与传统的聊天机器人不同,ChatGPT能够根据先前的对话历史生成答案,并对生成的答案进行调整和优化。这意味着,用户可以通过与ChatGPT的对话来“训练”它,从而使其生成更加准确、恰当的回答。ChatGPT的这种上下文感知能力让它能够更好地理解用户的意图和需求,在一定程度上实现了自我进化。
2023年3月OpenAI发布了GPT-4模型。GPT-4是一个拥有超过100万亿个参数的超大规模模型,而GPT-3.5仅有1750亿个参数。这意味着GPT-4可以处理更多的数据,生成更长、更复杂、更连贯、更准确和更有创造力的文本。由于模型规模的提升,GPT-4也展现出了比GPT-3.5更强大的能力。例如,在各种专业和学术考试中,如SAT、LSAT、GRE等,GPT-4都表现出了与人类水平相当或超越人类的性能,而在日常对话中,也能够与人类进行流畅、自然、合理且富有逻辑性的交流。与GPT-3.5另一个重要的区别是,GPT-4是一个多模态(Multimodal)模型,这意味着它可以接受图像和文本作为输入,并输出文本、图像,而GPT-3.5只能接受文本作为输入,并输出文本。这使GPT-4可以处理更复杂且具有视觉信息的任务,如图像描述、图像问答、图像到文本等。
截至目前GPT-4已经开放使用,需要开通ChatGPT Plus会员,但是有使用频率限制,并且已经在ChatGPT中实现了对插件的初始支持。插件是专门为以安全性为核心原则的语言模型设计的工具,可以帮助ChatGPT连接网络、运行计算或使用第三方服务等。许多开发者也收到了ChatGPT Plugins的开发权限。
ChatGPT的应用已经融入了各行各业中,应用场景数不胜数,目前为止ChatGPT依然是个黑盒,需要深入使用才知道它能在什么地方帮助你。如果想评估所有应用场景的使用情况,则需要一个通用型指标,OpenAI用ChatGPT在人类考试中的表现作为这项指标。不同领域的专业性考试是全应用场景的一个缩影,前期根据这项指标去优化迭代GPT是一个不错的选择,在2023年3月27日发布的一份技术报告中,OpenAI全面介绍了其最新模型GPT-4,此报告中包含一组考试结果,包含GPT-4、GPT-3.5的考试结果对比,如图1-1所示。
图1-1 Virtual Capitalist网站将考试结果可视化之后的图表
为了测试ChatGPT的能力,OpenAI进行了各种专业和学术考试的模拟测试,包括SAT考试、律师资格考试和各种预修课程(AP)考试。这些考试使用百分位数来对成绩进行评分,百分位的意思是将考生的表现与其他考生的表现进行比较,以百分比的形式进行排名。例如,如果在一次考试中的排名为第60百分位,则意味着你的得分高于60%的考生。
结果显示,在大多数领域中,GPT的成绩是非常不错的,尤其是GPT-4在引入了更多优秀的数据集和专家的调教之后,专业性提升得非常明显。
当然,随着报告的发表也出现了一些有意思的事情,北密歇根大学哲学教授(Antony Aumann)在为自己的世界宗教课评分时发现,全班第一的论文竟然是用ChatGPT写的。一项调查显示,现在美国89%的大学生使用ChatGPT做作业,比例甚至更高,随后西雅图和纽约的几十所公立学校及部分大厂、Stack Overflow这样的编程平台都禁用了ChatGPT,其实这种做法目前还处于讨论、对抗阶段,目前非常著名的论题是“AI创作的画可以称为艺术品吗?”,这种论题比比皆是。
上面的考试指标已经可以说明ChatGPT应用能力的一部分涵盖范围,各个领域也都纷纷用自己的垂直领域测试来测验ChatGPT应用的“专业性”。
(1)一篇名为 Performance of ChatGPT on USMLE : Potential for AI-Assisted Medical Education Using Large Language Models 的文章中,研究人员评估ChatGPT在美国医学执照考试(USMLE)中的表现,该考试由三项考试组成,ChatGPT在所有这3项考试中均达到或接近通过门槛而没有进行任何专门的训练或强化。此外,ChatGPT在回答的过程中表现出高度的一致性和洞察力。这些结果表明,大型语言模型可能有助于医学教育,并可能有助于临床决策。
(2)一篇名为 GPT Takes the Bar Exam 的论文中声称,研究人员记录了GPT-3.5用于考试的多状态多项选择(MBE)部分。虽然研究人员发现,在他们的训练数据规模上微调GPT-3.5的零样本性能几乎没什么变化,但他们确实发现超参数优化和提示工程对GPT-3.5的零样本性能产生了积极影响。为了获得最佳提示和参数,GPT-3.5在完整的NCBE MBE练习考试中实现了50.3%的标题正确率,大大超过了25%的基线猜测率,并且在证据和侵权方面的通过率都很高。GPT-3.5也与正确性高度相关,它的前两个和前3个选择分别在71%和88%的时间里是正确的,这表明以后大概率会有AI律师的诞生,并且还有资格证。
(3)根据一份内部文件显示,谷歌公司最近对多个AI聊天机器人进行了测试,其中包括ChatGPT。据悉,谷歌公司向ChatGPT提供了编码面试问题,并根据其回答确定将其录用为L3工程职位。虽然L3工程师被认为是谷歌工程团队的入门级职位,但ChatGPT最终仍然成功地通过了面试,并被录用了。这项实验显示,ChatGPT能够为问题提供简洁、高保真的答案,可以帮助用户节省通常花在浏览谷歌链接以查找相同信息上的时间。顺带一提的是L3工程师的平均总薪酬约为183000美元。
大部分是垂直领域之内的一些测评,这也是一个应用趋势,目前国内在搭建最多的就是垂直类大语言模型。ChatGPT在做的是通用领域的场景,不断发现、优化短板问题,也是程序的一个优化方向。
目前类似ChatGPT这样大语言模型的聊天机器人平台已经有很多了,但是在ChatGPT推出之前也有过类似的自然语言对话类型应用,也被用户所熟知,例如以Siri、天猫精灵为代表的智能设备。
天猫精灵是阿里巴巴集团旗下的语音助手,主要用于智能家居、音乐播放、购物和电影预订等场景。它的功能主要是基于预设的指令和场景,例如“打开客厅的灯”或“订购一份淘宝产品”。天猫精灵使用的技术主要是自然语言理解(Natural Language Understanding,NLU)和语音识别技术,可以将用户的语音指令转换为文本,并理解用户的意图,然后执行相应的操作,其实类似这种智能场景非常适合使用垂直类的大语言模型,阿里巴巴目前也在训练自己的大语言模型通义千问,如果这种智能家居的语音助手可以做到自然语言对话,则在用户体验的层面上将上升到极致,让每个智能家庭都可以拥有钢铁侠中的贾维斯管家。
Siri与天猫精灵的底层技术原理是比较相似的,Siri的应用场景主要是移动设备上的各种操作,例如发送短信、拨打电话、播放音乐、导航等。它的功能主要是基于用户的语音指令和设备上的应用程序,例如“打开手机中的音乐播放器”或“给某个联系人发送信息”。它们只是这种语音助手的代表,其实像这样的产品已经进入了很多家庭中,用户体验目前还是有很大上升空间的。Siri、天猫精灵这类产品后续估计都将会接入大语言模型,均可以进行自然语言对话。
现在的大语言模型的聊天机器人平台也有一些已经崭露头角,在2023年2月,谷歌公司展示了一款全新的对话式人工智慧聊天机器人Bard,该机器人是基于对话编程语言模型架构开发的。Bard的发布旨在应对OpenAI开发的ChatGPT,以提供更为优秀的对话体验。Lambda(Language Model for Dialogue Applications,Lambda)是谷歌公司所开发的一系列对话神经语言模型。该模型于2021年的谷歌I/O年会首次亮相,而第2代模型则同样在次年的I/O年会上发布。这里有一件比较有意思的事情,在2022年6月11日,美国《华盛顿邮报》发表了一篇关于谷歌公司自然语言处理模型Lambda是否具有自我意识的报道。报道中提到,一位谷歌公司工程师Blake Lemoine声称Lambda已经具备了感知能力,并向公司高层Blaise Agüeray Arcas及Jen Gennai表示了自己的观点,然而,随后Blake Lemoine被安排带薪的行政休假,而谷歌公司方面则否认了这些说法,并表示没有证据表明Lambda具有知觉和意识。这一事件引发了许多学者和专家的关注和讨论。有一些学者耻笑语言模型存在自我意识的想法,包括前纽约大学心理学教授Gary Marcus、谷歌子公司DeepMind研究科学家David Pfau、斯坦福大学以人为本人工智能研究所的Erik Brynjolfsson和萨里大学教授Adrian Hilton等,但也有一些学者认为,这一事件引发了关于机器是否具备自我意识的重要讨论,同时也引发了有关图灵测试是否仍有助于研究人员辨识机器何时可视为具备通用人工智慧或思考能力的讨论。在接受《连线》杂志采访时,Blake Lemoine重申了自己之前的说法,并表示如果调查确定Lambda具有感知和意识,则它应该受到《美国宪法》第十三条修正案对“一个人”的保护,并将其比作“源自地球的外星智慧”,然而,谷歌公司在Blake Lemoine要求为其聘请律师后将他解雇。同年7月22日,谷歌公司表示Blake Lemoine因持续违反“保护产品信息”的就业和数据安全政策而被解雇,同时认为他的主张毫无根据,只不过Lambda比较“会说”而已,目前关于Lambda的猜测与争议还是非常多的。
2023年,Anthropic发布了一款名为Claude的聊天机器人,被称为ChatGPT强而有力的竞争对手。从曝光的内测对比结果来看,Claude已经可以和ChatGPT匹敌了。虽然在代码生成和推理问题上存在差距,但在无害性方面表现突出,能够更清晰地拒绝不恰当的请求,当面对超出能力范围的问题时,能够主动坦白,而不是像ChatGPT那样逃避回答。同时,Anthropic还发布了Claude对应的论文 Constitutional AI : Harmlessness from AI Feedback ,论文的作者列表中包含了较多的拥有OpenAI工作背景的核心成员,这篇论文成为从技术背景和时效性两方面最贴近ChatGPT的文章。该论文提供了一种稍低成本的新技术思路,对ChatGPT的技术复现有非常大的借鉴价值。论文中提出了一种名为Constitutional AI的新框架,旨在解决人工智能系统可能带来的潜在威胁。该框架主要基于两个关键观点:第一,任何人工智能系统都应该遵循一些基本的准则和规则,以确保其行为无害。第二,人工智能系统需要具备自我反馈机制,以便在出现问题时及时纠正。
目前Claude有3个版本:Claude+、Claude-Instant、Claude-Instant-100k,其中Claude-Instant是一个更快、更便宜的版本,值得一提的是Claude-Instant-100k,与ChatGPT相比最明显的区别为可以处理文本的量级。Claude使用100000个标记的上下文窗口,可以分析大约75000个单词,而GPT-4为32000个标记对应大约24000个单词。更大的上下文窗口允许Claude分析更广泛的材料,并对复杂主题提供更全面的理解。一般人阅读100000个标记大概需要5小时左右,理解和记住则需要更长的时间,官方给了一个生动的例子来解释这有多么不可思议:“将《了不起的盖茨比》的整个文本加载到Claude-Instant(72k)中,并修改了一行,当要求模型找出不同之处时,它会在22秒内给出正确答案。”这确实是很惊人的,它可以大大提升人们处理信息的效率。可以想象把数百页的开发文档发给它之后,它会直接告诉你解决方案,以及根据年报分析公司的战略风险和机遇等。像那种很长很厚的使用说明估计以后不会再存在了,遇到什么问题让大语言模型告诉你怎么做就可以了,前提是这个使用说明不可以超出它的标记范围,Claude-Instant-100k这次的方向笔者认为还是很成功的,它成功地让大语言模型的应用范围扩大到了大文本处理,从对话上上升了一个台阶,预计后续大语言模型都会有处理大文本应用场景的分支。