购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

现代自然语言处理:从规则到统计

咖哥:自然语言处理是人工智能的一个子领域,关注计算机如何理解、解释和生成人类语言。那么,我们就要好好说一说“语言”(如下图)是怎么一回事。你有没有想过,为什么我说话,你能听懂?

小冰:你普通话讲得好呗。

“语言”是怎么一回事

何为语言?信息又如何传播?

咖哥哈哈一笑:你说得还真对。最早的语言啊,是以声音为媒介,通过话语进行传送的,使用同一种语言,就显得很重要。我国幅员辽阔,各地方言多如牛毛,所谓“十里不同音,百里不同俗”。为了方便交流,消除方言隔阂,国家推广使用普通话。不过其实啊,早在两千多年前,古人就研究过这个问题。古代版的普通话叫“雅言”。春秋时期,孔子的三千弟子来自五湖四海,这就必然需要孔子用一种被大家共同认可的语言来讲学。孔子会用什么语言讲学呢?《论语·述而第七》中记载:“子所雅言,《诗》、《书》、执礼,皆雅言也。”

当然,口头传播信息有明显的缺点,信息非常不易积累,也很难传播,所以原始人类开始使用结绳、刻契、图画的方法辅助记事,后来又用图形符号来简化、取代图画。当图形符号简化到一定程度,并形成与语言的特定对应时,早期的文字就形成了(见下页图)。无论是最古老的象形文字、楔形文字,还是甲骨文,以及现代文字,它们的作用都是承载信息。

早期的文字

没有口头话语,没有书面文字,我们就无法沟通。所以,语言是信息的载体。口头话语和书面文字都是语言的重要组成元素。

有了语言,就有了信息沟通的基础。不过,除了语言这个信息载体之外,我们还需要在信息的通道中为语言编码和解码。一个只说英语的人,面对一个听不懂英语的中国人,他们虽然都使用语言,但是不能相互解码,所以无法沟通。同理,计算机也不能直接理解人类的自然语言。因为缺少编码和解码的过程。因此, 要让计算机理解我们人类的语言,就要对语言进行编码,将其转换成计算机能够读懂的 形式

而这个编码和解码的任务,可以简化成如下图所示的简化的通信模型。

简化的通信模型

上图中,信息的发送人把想要发送的信息通过一种编码方式(绘画、文字、声音等)进行编码,然后通过信道把被编码后的信息传给接收人,接收人对其进行解码,从而获取信息的内容。

NLP是人类和计算机沟通的桥梁

小冰:上面这张图,要说讲的是从英文到中文的翻译过程,我能理解;要说是将电话、电报等电信号转换成声音和文字的过程,我也能懂;但我不明白的是,ChatGPT怎么就能理解人类的语言了呢?

咖哥: 对了,NLP的核心任务,就是为人类的语言编码并解码,只有让计算机能够理解人类的语言,它才有可能完成原本只有人类才能够完成的任务(见下图)。

NLP是人类和计算机沟通的桥梁

因此我们可以说: NLP就是人类和计算机之间沟通的 桥梁!

NLP技术的演进史

咖哥:NLP技术的演进过程可以粗略地分为4个阶段,如下图所示。本节对应地使用了4个词语来概括它们,分别是起源、基于规则、基于统计、深度学习和大数据驱动。

NLP技术演进史

起源:NLP的起源可以追溯到阿兰·图灵在20世纪50年代提出的图灵测试。图灵测试的基本思想是,如果一个计算机程序能在自然语言对话中表现得像一个人,那么我们可以说它具有智能。从这里我们可以看出,AI最早的愿景与自然语言处理息息相关。NLP问题是AI从诞生之日起就亟须解决的主要问题。

基于规则:在随后的数十年中,人们尝试通过基于语法和语义规则的方法来解决NLP问题。然而,由于规则很多且十分复杂,这种方法无法涵盖所有的语言现象。基于规则的语言模型的简单示例如下图所示。

基于规则的语言模型

基于统计: 1970年以后,以弗雷德里克·贾里尼克(Frederick Jelinek)为首的IBM科学家们采用了基于统计的方法来解决语音识别的问题,终于把一个基于规则的问题转换成了一个数学问题,最终使NLP任务的准确率有了质的提升。至此,人们才纷纷意识到原来的方法可能是行不通的,采用统计的方法才是一条正确的道路。因此,人们基于统计定义了语言模型(Language Model,LM):语言模型是一种用于捕捉自然语言中词汇、短语和句子的概率分布的统计模型。简单来说,语言模型旨在估计给定文本序列出现的概率,以帮助理解语言的结构和生成新的文本。

深度学习和大数据驱动: 在确定了以统计学方法作为解决NLP问题的主要武器之后,随着计算能力的提升和深度学习技术的发展,大数据驱动的NLP技术已经成为主流。这种技术使用深度神经网络(Deep Neural Network,也就是深层神经网络)等技术来处理海量的自然语言数据,从而学习到语言的复杂结构和语义。目前的大型预训练语言模型,在很多NLP任务上的表现甚至已经超过人类,不仅可以应用于语音识别、文本分类等任务,还可以生成自然语言文本,如对话系统、机器翻译等。

不难发现,基于规则和基于统计的语言模型,是NLP技术发展的关键节点,而大规模语言模型的诞生,又进一步拓展了NLP技术的应用范围。 fbNuJGOLF6EpWUyGkeLDsfGxdYLe2NZJs1g68zqMaTVcBqBtUhj0AGv3LwiNpWDJ

点击中间区域
呼出菜单
上一章
目录
下一章
×