20世纪50年代,图灵提出著名的“图灵测试”,引出了自然语言处理的思想,而后,经过半个多世纪的跌宕起伏,历经专家规则系统、统计机器学习、深度学习等一系列基础技术体系的迭代,如今的自然语言处理技术在各个方向都有了显著的进步和提升。作为人工智能重点技术之一,自然语言处理在学术研究和应用落地等各个方面都占据了举足轻重的地位。
自然语言是指汉语、英语、法语等人们日常使用的语言,是人类社会发展演变而来的语言,而不是人造的语言,自然语言是人类学习与生活的重要工具。自然语言在整个人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机应用而言,据统计,用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右则用于语言文字的信息处理。
自然语言处理(Natural Language Processing, NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科,是人工智能、计算机科学和语言学所共同关注的重要方向。
自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,即自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义,自然语言生成则是指能以自然语言文本来表达给定的意图。
自然语言的处理流程大致可分为五步:
第一步,获取语料。第二步,对语料进行预处理,其中包括语料清理、分词、词性标注和去停用词等步骤。第三步,特征化,也就是向量化,主要把分词后的字和词表示成计算机可计算的类型(向量),这样有助于较好地表达不同词的相似关系。第四步,模型训练,包括传统的有监督、半监督和无监督学习模型等,可根据应用需求的不同进行选择。第五步,对建模后的效果进行评价,常用的评测指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等。准确率是衡量检索系统的查准率;召回率是衡量检索系统的查全率;而F值是综合准确率和召回率用于反映整体的指标,当F值较高时则说明试验方法有效。
谁掌握了更高级的自然语言处理技术,谁在自然语言处理的技术研发中取得了实质性突破,谁就将在日益激烈的人工智能军备竞赛中占得先机。
作为一门包含计算机科学、人工智能及语言学的交叉学科,自然语言处理经历了在曲折中发展的过程。
1950年,图灵提出的“图灵测试”被认为是自然语言处理思想的开端。20世纪50年代到70年代,自然语言处理主要采用基于规则的方法,即认为自然语言处理的过程和人类学习认知一门语言的过程是类似的,彼时,自然语言处理还停留在理性主义思潮阶段,以基于规则的方法为代表。
然而,基于规则的方法具有不可避免的缺点:首先,规则不可能覆盖所有的语句;其次,这种方法对开发者的要求极高,开发者不仅要精通计算机还要精通语言学。因此,这一阶段虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化。
20世纪70年代以后,随着互联网的高速发展,丰富的语料库成为现实及硬件不断更新与完善,自然语言处理思潮由理性主义向经验主义过渡,基于统计的方法逐渐代替了基于规则的方法。贾里尼克和其领导的IBM华生实验室是推动这一转变的关键,他们采用基于统计的方法,将当时的语音识别率从70%提升到90%。在这一阶段,自然语言处理基于数学模型和统计的方法取得了实质性的突破,从实验室走向实际应用。
从20世纪90年代开始,自然语言处理进入了繁荣期。1993年7月在日本神户召开的第四届机器翻译高峰会议(MT Summit IV)上,英国著名学者William John Hutchins教授指出,自1989年以来,机器翻译的发展进入了一个新纪元。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等。这种建立在大规模真实文本处理基础上的机器翻译,是机器翻译研究史上的一场革命,它将把自然语言处理推向一个崭新的阶段。随着机器翻译新纪元的开始,自然语言处理进入了它的繁荣期。
尤其是20世纪90年代(1994—1999年)以及21世纪初期,自然语言处理的研究发生了很大的变化,出现了空前繁荣的局面。这主要表现在三个方面。
首先,概率和数据驱动的方法几乎成了自然语言处理的标准方法。句法剖析、词类标注、参照消解和话语处理的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的评测方法。
其次,由于计算机的速度和存储量的增加,使得在语音和语言处理的一些子领域,特别是在语音识别、拼写检查、语法检查这些子领域,有可能进行商品化的开发。语音和语言处理的算法开始被应用于增强交替通信(Augmentative and Alternative Communication, AAC)。
最后,网络技术的发展对自然语言处理产生了巨大的推动力。万维网(World Wide Web, WWW)的发展使网络上的信息检索和信息抽取的需要变得更加突出,数据挖掘技术日渐成熟。而WWW正是由自然语言构成的。因此,随着WWW的发展,自然语言处理的研究变得越发重要。可以说,自然语言处理的研究与WWW的发展息息相关。
如今,在图像识别和语音识别领域的成果激励下,人们逐渐引入深度学习来做自然语言处理研究。2013年,Word2vec将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。作为多层的神经网络,深度学习从输入层开始,经过逐层非线性的变化得到输出。从输入到输出做端到端的训练,即可执行预想的任务。RNN已经成为自然语言处理最常用的方法之一,GRU、LSTM等模型则相继引发了一轮又一轮的自然语言识别热潮。