购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.2 改写重述的主要算法

改写技术的研究内容包括改写资源的获取和改写的生成,这里我们关注的改写技术是指改写的生成技术。改写的生成就是将一个给定的短语或者句子转换为另一个或多个表达相同含义的短语或者句子的过程。依据改写技术中使用到的主要自然语言处理技术,可以将现有的改写生成技术方法大致分为:基于词典的方法、基于自然语言生成(Natural Language Generation,NLG)的方法、基于机器翻译的方法以及基于模板的方法。

3.2.1 基于词典的方法

基于词典的改写生成是词汇级别的改写,因此也被称为“词替换”。令 w 是待改写句 s 中的词语,其词典中定义的同义词为 Y ={ Y i |i ≥1}。基于词典的改写生成就是用 Y i 替换 w 生成改写句 t 的过程,此过程通常需要两个步骤完成:

(1)候选改写获取。从词典中抽取 w 的同义词 Y 作为它的候选改写词。

(2)改写确认。由于 w 处于 s 这个特定的环境中,其具有一定的语法或词法限制,而且并不是 w 的所有候选改写词 Y 都满足这个特定的语法或词法限制,因此需要通过改写来过滤掉 Y 中不能替换 w 的词语。此步骤的方法很多,例如,对于一个候选改写词在给定语境中的可替换性,可通过训练一个二元分类器来判别;对于一个候选改写词替换的合理性,可通过统计替换后生成的短语或搭配在语料上出现的次数来判别。

基于词典的改写生成方法的优点在于同义词词典比较容易获得,而且实现简单,可行性好。其缺点在于此方法仅是简单的词替换,生成的改写语句类型不变,无法生成多种类型的句子。

3.2.2 基于自然语言生成的方法

假设待改写句为 s ,利用基于自然语言生成的改写方法生成改写句 t 的过程可以概括为以下两个步骤:

s 通过一系列自然语言生成技术(如词法分析、句法分析、语义分析等)得到其内部表示 R

利用基于自然语言生成的技术或者直接利用现有的自然语言生成系统生成 R 对应的自然语言句子 t

传统的自然语言生成系统是以 中得到的 R 为输入,以 中得到的 t 为输出。由此可知, 两个过程是相互独立的,并且中间表示 R 同时对应着 s t ,因而在保证 s t 意思相同的前提下,也可以保证 t s 在字面表达上不同,即满足了 t s 互为改写的条件。

概括地说,基于自然语言生成的改写方法首先要理解句子,然后在此基础上使用不同的方式进行表述,这与人的改写行为极为相似。这种方法的缺点在于,需要完整的语义表达形式和框架进行支撑,这就决定了其对深层语义知识的依赖很大,但是目前自然语言生成的深层语义分析技术发展得还不够成熟。此外,自然语言生成系统的实现是一个很复杂的过程,而且工程量较大。

3.2.3 基于机器翻译旳方法

Chris等从机器翻译的角度来研究改写的生成。Chris将机器翻译中大规模平行语料库中互为翻译句对的源语言和目标语言替换成源语言和目标语言相同的改写句对,然后使用机器翻译模型和系统来解决改写生成的问题。基于机器翻译方法的瓶颈在于如何获得一个大规模的改写语料库。在现实世界中,难以找到大规模且高质量的改写句对资源,这使得改写句对的获取比翻译句对更具挑战性。Chris的实例是从相关新闻的语料库中提取出来的,这些语料库主要是通过大规模搜集互联网上的新闻资料而得到的。

Brazilay曾认为,基于机器翻译的方法所使用的改写语料库存在噪声,并且改写语料库规模太小可能导致严重的数据稀疏等问题,从而不适合用于改写生成。然而,不能否认,基于机器翻译的方法确实克服了许多改写方法中存在的困难。Chris提到利用大规模语料库,并结合改写生成问题的自身特点,引入了短语知识库,这在一定程度上解决了Brazilay提到的问题。然而,受限于当时互联网规模和相关计算资源条件的不足,Chris等使用的语料库规模仍然远远不够大。

3.2.4 基于模板的方法

模板实际上是词汇化的规则,是语言知识的一种抽象。基于模板的方法就是将语言改写知识用改写模板的形式表示。

这个过程可概括为:将待改写句与模板库中的改写模板进行匹配。若匹配到某一模板,则将该模板各个槽中填充的内容填入相应的改写模板槽位,从而生成改写句。该方法的关键在于如何构建大规模的改写模板库。

目前,已经有很多研究者在进行改写模板抽取的研究工作,此方法的优点在于可以生成复杂而丰富的改写句,因为改写模板中不仅包含词汇和短语的替换,同时还包含语序和句子结构的变化。

这种方法的一个局限性是其模板覆盖范围有限,降低了模板匹配的成功率。在保证生成文本准确性的同时,提升模板匹配率是一大挑战。关键在于如何在模板设计时平衡模板的长度、复杂性和泛化能力,这对于模板的设计和提取至关重要。 FwepT3SgGOdDYipPDsFObsePqujuVL28EWwovrPPSYIIBLNhlIKxj4RoZEMHfXU4

点击中间区域
呼出菜单
上一章
目录
下一章
×