购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 自然语言处理:让AI听懂人话

很显然,让机器拥有类人的学习能力只解决了机器具备学习能力这一环节的问题,或者说只解决了机器数据输入的问题。但要跟人类之间实现交互、交流,需要一种类人的语言处理技术。因此,自然语言处理技术就走入了人工智能技术领域。从技术层面来看,自然语言处理(Natural Language Processing,NLP)只是人工智能的一个分支,它使计算机能够像人类一样理解、处理和生成语言。是为了实现让人与机器之间构建一种符合人类交流方式的机器交流技术。我们当前所使用的搜索引擎、机器翻译以及语音助理等,其实都是由自然语言技术提供支持。虽然这项技术最初指的是人工智能系统的阅读能力,但现在已经成为所有计算语言学的一种通俗说法,并且在技术层面还派生出了包括自然语言生成(Natural Language Generation,NLG)——计算机自行创建通信的能力和自然语言理解(Natural Language Understanding,NLU)(理解俚语、发音错误、拼写错误和语言其他变体的能力)。

2.2.1 人工智能皇冠上的明珠

20世纪50年代,“图灵测试”引出了自然语言处理的思想,而后,经过半个多世纪的跌宕起伏,历经专家规则系统、统计机器学习、深度学习等一系列基础技术体系的迭代,如今的自然语言处理技术在各个方向都有了显著的进步和提升。作为人工智能重点技术之一,自然语言处理在学术研究和应用落地等各个方面都占据了举足轻重的地位。

自然语言指汉语、英语、法语等人们日常使用的语言,是人类社会发展演变而来的语言,自然语言是人类学习生活的重要工具。自然语言在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右则都是用于语言文字的信息处理。

自然语言处理是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科,是实现人机间信息交流的渠道,是人工智能、计算机科学和语言学所共同关注的重要方向。

本质上来看,自然语言处理技术其实是人工智能和机器学习的一个子集,专注于让计算机处理和理解人类语言。

自然语言处理有很多具体表现形式,包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。而自然语言的核心就是理解和分析人类的自然语言,其中包括两个步骤,即自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。

自然语言的处理流程大致可分为五步:第一步,获取语料。第二步,对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤。第三步,特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),这样有助于较好地表达不同词之间的相似关系。第四步,模型训练,包括传统的有监督、半监督和无监督学习模型等,可根据应用需求不同进行选择。第五步,对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等。准确率是衡量检索系统的查准率,召回率是衡量检索系统的查全率,而F值是综合准确率和召回率用于反映整体的指标,当F值较高时则说明试验方法有效。

比尔·盖茨曾说:“语言理解是人工智能皇冠上的明珠。”可以说,谁掌握了更高级的自然语言处理技术、谁在自然语言处理的技术研发中取得了实质突破,谁就将在日益激烈的人工智能军备竞赛中占得先机。

2.2.2 繁荣发展的自然语言处理

作为一门包含着计算机科学、人工智能以及语言学的交叉学科,自然语言处理的发展也经历了曲折中发展的过程。

“图灵测试”被认为是自然语言处理思想的开端。20世纪50~70年代自然语言处理主要采用基于规则的方法,即认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,彼时,自然语言处理还停留在理性主义思潮阶段,以基于规则的方法为代表。

然而,基于规则的方法具有不可避免的缺点,一方面,规则不可能覆盖所有语句,另一方面,这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学,因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。

20世纪70年代以后,随着互联网的高速发展,丰富的语料库成为现实,以及硬件的不断更新完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。德里克·贾里尼克(Frederick Jelinek)和其领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。

从20世纪90年代开始,自然语言处理的发展进入了繁荣期。1993年7月在日本神户召开的第四届机器翻译高层会议(MT Summit Ⅳ)上,英国著名学者哈钦斯(William John Hutchins)教授在他的特约报告中指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将自然语言处理推向一个崭新的阶段。

在20世纪90年代的最后5年(1994~1999年)以及21世纪初期,自然语言处理的研究发生了很大的变化,出现了空前繁荣的局面。这主要表现在三个方面。

首先,概率和数据驱动的方法几乎成了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的评测方法。

其次,由于计算机速度和存储量的增加,使得在语音和语言处理的一些子领域,特别是在语音识别、拼写检查、语法检查这些方面进行了商业化的开发。语音和语言处理的算法开始被应用于增强交替通信(AAC)中。

最后,网络技术的发展对自然语言处理产生了巨大的推动力。万维网(WWW)的发展使得网络上的信息检索和信息抽取的需要变得更加突出,数据挖掘的技术日渐成熟。而WWW正是由自然语言构成的,因此,随着WWW的发展,自然语言处理的研究变得越发重要。可以说,自然语言处理的研究与WWW的发展息息相关。

近年来,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,2013年,word2vec将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。作为多层的神经网络,深度学习从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练,把输入到输出对应的数据准备好,设计并训练一个神经网络,即可执行预想的任务。自word2ve后,循环神经网络(RNN)、门控循环单元(GRU)、长短期记忆(LSTM)等模型则相继引发了一轮又一轮的自然语言识别热潮。

2.2.3 大模型路线的胜利

自然语言处理领域,最出圈也最具有代表性的应用就是ChatGPT。ChatGPT是由OpenAI发布的一个自然语言处理模型。很多人形容它是一个真正的“六边形战士”——不仅能拿来聊天、搜索、做翻译,还能撰写诗词、论文和代码,甚至可以用来开发小游戏、参加美国高考等。ChatGPT无疑是成功的,除了能够执行多项任务以及二次应用外,更重要的是,ChatGPT的成功证明了大模型路线的有效性。

具体来看,在OpenAI的GPT模型之前,人们在处理自然语言模型时,用的是循环神经网络,然后加入注意力机制(Attention Mechanism)。所谓注意力机制,即将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。比如,当我们要让AI识别一张动物图片时,最该关注的地方就是图片中动物的面部特征,包括耳朵,眼睛,鼻子,嘴巴,而不用太关注背景的一些信息,注意力机制核心的目的就在于希望机器能在很多的信息中注意到对当前任务更关键的信息,而对于其他的非关键信息不需要太多的注意力侧重。换言之,注意力机制让AI拥有了理解的能力。

但RNN+Attention,会让整个模型的处理速度变得非常慢,因为RNN是由词到词处理的。所以才有了2017年谷歌大脑团队在那篇名为“Attention is all you need”(自我注意力是你所需要的全部)的论文的诞生,简单来说,这篇论文的核心就是不要RNN,而要Attention。而这个没有RNN只有Attention的自然语言模型就是Transformer,也就是今天ChatGPT能够成功的技术基础。这个只有Attention的Transformer模型是由序列到序列进行处理,可以并行计算,其计算速度的大大加快,让训练大模型,超大模型,巨大模型,超巨大模型成为可能。

于是OpenAI在一年之内开发出了第一代GPT,第一代GPT在当时已经是前所未有的巨大语言模型,具有1.17亿个参数。而GPT的目标只有一个,就是预测下一个单词。如果说过去的AI是遮盖掉句子中的一个词,让AI根据上下文“猜出”中间那一个词,进行完形填空,那么GPT要做的,就是要“猜出”后面一堆的词,甚至形成一篇通顺的文章。事实证明,基于Transformer模型和庞大的数据集,GPT做到了。

特别值得一提的是,在GPT诞生的同期,还有另一种更火的语言模型,就是BERT。BERT是谷歌基于Transformer做的语言模型,同时也是一种双向的语言模型,通过预测屏蔽子词——先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词——进行训练,这种训练方式在语句级的语义分析中取得了极好的效果。BERT模型还使用了一种特别的训练方式——先预训练,再微调,这种方式可以使一个模型适用于多个应用场景。这使得BERT模型刷新了11项NLP任务处理的纪录。在当时,BERT直接改变了自然语言理解这个领域,引起了多数AI研究者的跟随。

面对BERT的大火,GPT的开发者们依然选择了坚持做生成式模型,而不是去做理解。于是就有了后来大火的GPT-3和ChatGPT这个可以帮我们写论文、代码,进行多轮对话,能完成各种各样只要是以文字为输出载体的任务的神奇AI。

从GPT-1到GPT-3,OpenAI做了两年多时间,用“大力出奇迹”的办法,证明了大模型的可行性,参数从1.17亿飙升至1750亿,似乎也证明了参数越多、越大,AI能力越强。因此,在GPT-3成功后,包括谷歌在内竞相追逐做大模型,参数高达惊人的万亿甚至10万亿规模,掀起了一场参数竞赛。

但这个时候,反而是GPT系列的开发者们冷静了下来,没有再推高参数,而是又用了近两年时间,花费重金,用人工标注大量数据,将人类反馈和强化学习引入大模型,让GPT系列能够按照人类价值观优化数据和参数。

可以说,作为一种通用AI,ChatGPT的成功更是一种工程技术上的成功,ChatGPT证明了大模型路线的胜利,让AI终于完成了从0到1的突破,从而走向真正的通用AI时代。随着它的持续进化,ChatGPT以及NLP技术可能产生的潜力还会超越不少人的想象。

2016年9月,AlphaGo打败欧洲围棋冠军之后,包括李开复在内的多位行业学者专家都认为AlphaGo要进一步打败世界冠军李世石的希望不大。但仅仅6个月后,AlphaGo就轻易打败了李世石,并且在输了一场之后再无败绩,这种进化速度让人瞠目结舌。而现在,NLP技术正在复刻AlphaGo的进化速度,向未来狂奔而去。 Aa8gTSvt97ik1zHl/5vsZAE30ZlJhEP4574rRelaAwFMpfP/mHJi8g/tjptAgwtv

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开