第二章
语料库短语学研究概述

2.1　引言

短语学研究由来已久，到现在已有70多年的历史，而语料库语言学的发展，赋予短语学研究新的生命力。做为一种描写语言学，语料库语言学的主要任务是描写意义，并聚焦于短语的意义。John Sinclair曾经为《短语学：跨学科视角》（Granger & Meunier，2008）撰写了序言和后记。在序言中，他指出语言学习者经常遇到的一个问题，即“虽然掌握了语法和词汇，但还是不知道如何把它们讲出来”。这里，学习者讲不出的东西指的就是地道的短语。他接着直言不讳地讲，长期以来短语学受到语言描写研究的忽视。在后记中，Sinclair更加旗帜鲜明地强调，对于语言研究而言，除了短语还是短语（nothing but the phrase）。

本节首先概述了短语学研究的三个主要派别，然后详细综述了语料库短语学研究，分析相关研究的特点。

2.2　短语学研究的三个派别

在语言学领域内，研究短语最早出现于20世纪40年代末，在苏联和东欧一些国家的语言研究者采用定性分析方法，全面系统地描述了短语的各种范畴。自60年代以来，在西欧和美国，越来越多的语言研究者开始对短语产生兴趣，短语学研究的重要性和价值日益彰显。无论是在语言学理论建设方面，还是在词典编撰、语言教学等应用性研究中，都不同程度地受到短语学研究的影响。尽管如此，在很长一段时间里，短语学实际上是处于被忽视的状态，至少在西方的学术传统中是这样子的。对此，Sinclair（2008a：1）给出两点解释：第一，短语学研究持一种语言整体观，不主张把语法和词汇或者语义截然分开，研究对象是来自文本中的短语，并且允许甚至鼓励采用各种研究手段，这种思想有悖于当时的传统语言学研究的主流思想，故不被理解和认可；第二，大多数传统语法是基于纵聚合关系的，认为“文本项”（textual items）是基于开放式选择的结果，而短语学研究强调了横组合关系上的共现，这又与传统语法研究背道而驰，是可以被传统语法研究拒绝的备选项。因此，短语学一直是一片尚未被真正开发的处女地，直到语料库语言学兴起才重新把短语学拉回到研究者的视野，并成为语料库语言学研究领域的核心内容。

2.2.1　经典的俄罗斯理论

Cowie（1998）将早期短语学研究大致划分出三个派别。第一个派别被称为“经典的俄罗斯理论”（Classical Russian Theory）。这一派研究者的工作重点是对短语进行详尽的范畴分类描述。例如，他们首先区分了“类似于词”和“类似于句子”的短语单位。前者的句法功能要小于或者等于简单句，而后者指谚语、标语，或者口语中的程式化语言，凸显短语的语用功能。再如，Vinogradow（1947，转引自Cowie 1998）区分了“融合性短语”（phraseological fusions）、“联合性短语”（phraseological unities）和“组合性短语”（phraseological combinations）。“融合性短语”实际上指习语（idioms），具有意义不透明和句法结构固定的特点，如kick the bucket（死掉、翘辫子）。“联合性短语”较“融合性短语”灵活些，其意义被认为是构成该短语各成分原始义的修辞性延展，如blow off steam（原义指放出多余的蒸汽，其修辞义为用掉多余的精力，或者发脾气）。正如Cowie（1998：5）指出的那样，这两类之间的区分并不那么的泾渭分明。“组合性短语”极其难以定性，一般由两个开放性词类组成，如meet the demand（满足要求），其中一个单词取其字面义（demand要求），而另一个单词取其修辞义（meet满足）。此外，这种组合在结构上并不是完全固定的，允许出现其他符合要求的变体，如当meet作“满足”解时，除了与demand组合之外，还可以出现need（需求）、requirements（要求）、request（请求）等。很明显，区分这三类短语的标准不外乎有两个，其一是短语在形式上是否固定，其二是短语意义是否透明。但三种短语之间的界限并不是那么清晰，相反是模糊的。Cowie（1998）用一个连续统的概念来描述三个类别之间的区分，连续统的一端表示意义完全不透明、形式完全固定，习语位于这一端；另一端则表示意义部分透明，结构上允许部分变化，组合型短语位于这一端，再往外就是语言中出现的自由组合。很明显，俄罗斯理论传统尝试从定性的角度来界定短语，划分出不同的短语类型，并且提出许多不同的术语。这一传统影响了许多研究者，如Becker（1975）、Bolinger（1976）、Pawley（1985）、Jackendoff（1995）。有趣的是，几乎每个研究者都会根据自己的研究需求提出不同的术语。如Mel’cuk（转引自Cowie，1998：24）提出了“短语素”（phrasemes）的概念，并且指出“短语素”最主要的特征即非组构性（non-compositionality）。换言之，“短语素”不是依据语言规则由词或较小单位的短语构成，它是作为一个整体被储存和使用的。“短语素”是一个“词项单位”（a lexical unit），它的数量要远超过单词的数量，比例约为10比1，“短语素”中最多的成分是搭配。Wray（2002：9）从相关文献中总结出多达60余个表示短语的术语，并且指出，尽管有些术语之间可以相互借用，并且看似可以用来界定同一种语言现象，但实际上这些术语之间还是存在着些许的差别，体现了研究者采用的视角的不同。

毋庸置疑，“经典的俄罗斯理论”在短语学研究中起着举足轻重的作用，其最大的贡献在于：其一，它强调了短语单位在语言中的价值，并且指出短语不是依据普通语法规则构成，而是作为一个整体被储存以及使用；其二，它详细描写了短语单位的类型，为从事短语学理论的研究者提供了有价值的理论基础和参照系。许多研究者都沿着其思路，凭着对语言的理解和感知，通过不同的标准，对短语的类型进行划分。如Mel’cuk（转引自Cowie，1998）在界定短语素的概念时，提出了“非限制性”（unrestrictedness）和“规则性”（regularity）。前者关乎的是意义与词项的选择，指在对等的并且彼此独立的意义与表述之间进行完全不受任何限制的自由选择。后者指在意义与表述结合的过程中遵循普通法则。短语素的构成完全违背这两个标准，是受限制的和不规则的。依照这两个标准，Mel’cuk又将短语素（或曰固定短语）与自由短语区分开来，并且将短语素划分为语用短语素（pragmatic phrasemes）和语义短语素（semantic phrasemes），后者又分为习语（idioms）、搭配（collocations）和准习语（quasi-idioms）。其中，又将搭配细分为四类，并且指出搭配在数量上占了短语素的绝大部分，是短语学研究的主要内容（转引自Cowie，1998：31）。

Nesselhauf（2005）综述搭配研究时，按照研究途径划分出两种类别，一种是以显著性为导向的方法（significance oriented approach），或者基于频数的方法（frequency-based approach），一种是短语学的方法（phraseological approach）。前者可追溯到弗斯（J.R. Firth），并由M.A.K. Halliday和J. Sinclair充分发展，而后者则受到经典俄罗斯理论的深刻影响，持该方法的研究者有A.P. Cowie、I.Mel’cuk和F.J. Hausmann，其中以Cowie的研究最具代表性。Cowie将搭配界定为一种抽象的组合，可在实际文本中找到实例，并且有别于其他类型的词语组合，如习语。另外，Cowie还提出了词语组合连续统的概念，一端是习语，而另一端则是自由词语组合，并精细地划分了不同类别的词语组合，大致包括两类：综合式（composite）和制式（formulae）。二者的差别在于前者具有基本的句法功能，而后者具有基本的语用功能。Cowie又提出透明性（transparency）和互换性（commutability）的标准，并根据此标准将综合式搭配细化为四种类型：自由搭配（free combinations，如drink tea）、限制性搭配（restricted collocations，如perform a task）、修辞性习语（figurative idioms，如do a U-turn）和纯粹的习语（pure idioms，如blow the gaff）。这两个标准也成为该派研究者界定搭配的主要参照标准。但是，尽管采用了相同的判断标准，研究者还是能够划分出不同类型的搭配来（Nesselhauf，2005：16）。主要是因为这两个标准本身就带有很大的主观性，依据该标准划分的搭配类型不可能那么界限分明，相反，只能是一个类似于连续统的东西。为了克服主观臆断，有些研究者借用了基于频数研究搭配的方向，将频数指标列入，结合透明性和互换性，三维一体来界定搭配。

但是，有一点我们必须清楚，以短语学的方法来研究搭配与基于频数的方法最明显的差别在于，前者强调了搭配成分之间的句法关系。换句话说，搭配成分之间必须存在某种句法关系，比如说，形容词与名词、名词（做主语）与动词、副词与形容词、动词与名词（做宾语）。另外，关于这些词汇组合中，哪个成分起主导作用，或者成分之间相互平等，也成为研究者争论的焦点。而基于频数的方法则不过分强调搭配成分之间的句法关系。两种方法可谓各有千秋，实际上可以互为补充。

2.2.2　人类学派

Cowie（1998：2）划分的短语研究的第二大派别是“人类学派”，主要代表人物是Veronika Teliya和她的同事们。这一派别的研究将俄罗斯理论学派的思想进行了拓展，增加了文化的维度，并且指出“如果想要对语言中的短语特征进行充分描述和理解的话，有必要阐释其蕴含的丰富复杂的文化因素”（转引自Cowie，1998：2）。Skandera（2007）出版了一本论文集，从文化的角度探讨了语言中的短语特点。从他们的研究方法上可以看出，这一派别采用的基本上还是理论驱动的方法，故此处不再赘述。

2.2.3　语料库语言学视角

Cowie（1998）划分的第三个派别是语料库语言学视角下的短语学研究。用Cowie（1998：3）自己的话讲：“这条线走得更远，也极具成效”。这条线可以追溯到J.R. Firth，并经由新弗斯（Neo-Firthian）学派的代表人物M.A.K. Halliday以及现代语料库语言学的奠基人和开拓者J.M. Sinclair，一直发展到现在的各式各样的语料库短语学研究。语料库语言学视角下的短语学实质上是研究语言的“短语倾向性”（Sinclair，1987），即语言使用者通过语言的共选模式来实现意义的倾向性。

1957年，牛津大学出版社出版了J.R. Firth的一本论文集《语言学论文1934—1951》。在这个集子中，Firth（1957：190）指出“意义是学术研究中的一个永恒话题”。在谈到词汇意义时，Firth（1957：190）指出“任何词当它出现于一个新的语境中时，便会成为另一个新词”。这里的语境实际上指的是搭配。例如，Firth在解释单词ass的某一个意义时，指出其存在于与它习惯性搭配的前置短语your silly或者其他人称指称关系的短语中，并且短语中较常出现的形容词有silly、obstinate、stupid、awful、egregious，等等，并且ass不用复数形式。Firth对意义的阐释采用的是描述语言学的做法，而描述语言学最主要的任务就是对意义做出陈述。不同于单词的概念义（conceptual meaning），由搭配界定的意义（meaning by collocation）是组合关系层面的一种抽象，是“词语之间的相互期望”（mutual expectancy of words）。Firth用dark和night来解释搭配意义：单词night的其中一个意义就是与单词dark的搭配，同时dark的意义也存在于它与night的搭配，概括起来就是“由其词伴而知其词义”（You should learn a word by the company it keeps）（Firth，1968：179）。另外，Firth在1956年的一场报告中也详细解释过这种思想（转引自Herbst，1996：380）：“搭配研究指对关键词（key-words）、中心词（pivotal words）或者引导词（leading words）的研究，方法是将它们呈现于惯常持有的伙伴中。换言之，这些词的意义由它们习惯性的伴随词语来展示。”这里的“词伴”或者“伴随词汇”实际上就是搭配。很明显，Firth突出强调的是小语境，因为他特别指出“由搭配界定的意义与语境意义（contextual meaning）完全不是一回事，后者指的是话语与处理某种文化语境下的某种场合之间的一种功能关系”（Firth，1957：195）。但是，从Firth的表述中可以看出，他还没有把dark night视为一个整体来考查意义，他的目的是想通过搭配的语境来阐释单词的意义，将“搭配视为一个单词意义的一部分”（Herbst，1996：380）。另外，Lyons（转引自Herbst，1996：380）指出“Firth并没有说清楚搭配能力（collocability）确切指什么”。但是，从Firth的定义中至少可以明确两件事情：首先，搭配指独立词项之间的共现关系，而不是词性之间的关系；其次，搭配并不仅仅局限于两个单词的组合。正是由于在解释上具有一定的模糊性，之后的研究者对搭配产生了不同的解释。尽管如此，Firth有关搭配以及通过搭配来解释意义的思想对之后的相关研究产生了重要影响。

Firth并不是提出搭配概念的第一人，据说搭配的概念最早可追溯到两次世界大战期间日本的一些语言教师，但Firth赋予搭配在语言学意义研究领域中的核心地位（Sinclair et al ., 2004：iv）。Halliday是Firth的学生，他继承和发展了Firth的搭配概念。Halliday & Hasan（1976）在《英语的衔接》中是这么解释搭配或曰“搭配的衔接”（collocational cohesion）的：“搭配是一个用于衔接的涵盖性术语，由不同的词项通过某种连接方式共现而成，这些词项之所以被称为搭配是因为它们趋于在相似环境中出现。”因此，他们将在某一文本中出现的词，如Oxford、university、colleges、lectures、seminars、libraries、examinations和degrees定义为搭配，理由是它们共同出现并且建构了文本中的衔接。这些词之间的关系通常用语义学中的不同术语来解释，如同义词、反义词、下位词或者语义场等。Herbst（1996）将这种视角称为“以文本为导向的视角”（text-oriented approach）。很显然，这一视角不再局限于Firth当时界定的搭配具有的横向组合的特征，这些“搭配词”分散于文本中，虽然能够起到衔接文本的作用，但是却无法通过依存语法来描述它们之间的相互依存的关系，对于通过语料库统计手段来研究搭配并没有太多的实践操作价值。Herbst（1996：381）也指出这种通过以文本为导向的方法来确定的词项搭配关系在很大程度上是由语言之外的而非语言本身的因素决定的。Hasan（1984）可能也意识到了这一点，后来修正了术语，不再使用“搭配”，而改用“词汇链”（lexical chain）。

Sinclair继承并创造性地发展了Firth的思想，创立了一系列极富前瞻性的理论学说，奠定了现代语料库语言学的学科基础。Sinclair（1966：415）早期是这么描述搭配的：我们使用节点词（node）这一术语来指代一个项，我们所研究的就是它的搭配情况，然后可以界定一个跨距（span），用来指在节点词左右两边出现的与之相关联的其他项的数目，在跨距限定的范围内出现的项我们称之为搭配词（collocates）。Jones & Sinclair（1974：19）之后又给出了一个非常宽泛的定义，将搭配界定为“两个项在文本的某个特定范围内的共现”。这个概念一直延续使用到之后的研究中（参见Sinclair et al ., 2004：10）。此处的“项”应该就是节点词和搭配词。Sinclair（1991：115）后来又重申了这一点：“我想要区分两种不同类型的搭配，对于当下研究的词我们称之为节点词，把在节点词的某种特定范围内出现的词称为搭配词。文本中任何连续的词既可以作为节点词也可以作为搭配词，但不能同时兼具这两个角色。”另外，他还指出节点词和搭配词之间不完全是相邻的。但是，Sinclair强调了搭配成分之间在文本中遵循线性序列的特征，这明显有别于Halliday & Hasan（1976）提出的具有语篇衔接功能的搭配。

Sinclair（1991）早期区分了两类搭配：上行搭配（upward collocation）和下行搭配（downward collocation），依据主要是看节点词与搭配词在语料库中出现的频数。“上行搭配指搭配词的频数要超过节点词；而下行搭配指搭配词出现的频数要少于节点词”（Sinclair et al . 2004：xxiii）。如果搭配词出现的频数高出节点词频数0.15个百分点，该搭配为上行搭配；如果搭配词出现的频数低出节点词频数0.2个百分点，则为下行搭配。例如，单词very与confused搭配，但对于confused的意义界定作用并不大，原因是very是个极其常用的词；但是单词utterly与confused搭配却能够影响到confused的意义或者语义韵（同上）。Sinclair区分这两类搭配，主要是为了说明上行搭配中多数搭配词可能是一些语法词，或者上义词，而下行搭配则可以用来分析节点词的意义（Sinclair，1991：116）。很明显，在Sinclair的早期思想中，搭配的意义建构，起主要贡献的是词汇词和语法词。给我们的启示是，在分析词语意义时，要重点关注词汇词构成的搭配。关于这一思想，之后Sinclair（Sinclair et al ., 2004：xix）又进行了修正和补充：“人们普遍认为语法词与词汇词不同，它们没有搭配……而实际上语法词完全具有搭配，虽然与频数相对较低的词汇词的搭配不同，但毕竟也是搭配。”Sinclair思想的改变主要是基于他和Renouf对“搭配框架”（collocational framework）的观察（Renouf & Sinclair，1991）。

当时Sinclair在界定搭配时，频数是一个重要指标，但Sinclair并没有给出具体的频数标准，原因是：首先，当时统计显著性标准并不统一；其次，无论是哪一种搭配，其复现频数相对于语料库的容量来讲都是很低的，都可能是偶然因素造成的，有时甚至是一个几乎不可能发生的事件。但是，Sinclair（Sinclair et al ., 2004）又指出，任何讲英语的人都不会去质疑搭配的重要性，并且都有能力识别出文本中的搭配现象，但是却不能仅靠着内省的方式可靠地提取出这些搭配。之后，许多研究者都致力于去开发从文本中提取搭配的统计手段和方法。目前，一些搭配统计测量手段已被普遍接受，如Z值（或T值）测量、MI值测量，对数似然率值、Delta P等，用来检验各搭配词与节点词之间的相互预见和相互吸引程度，判断它们的共现在多大程度上体现了词语组合的典型性（参见卫乃兴，2002a）。但是，Sinclair（1991：117）指出：“观察从最原始的没有经过处理的语言数据中所呈现出的搭配力度还是非常重要的。”换言之，任何统计测量都不是搭配研究的最终目的，搭配研究也不能仅仅停留在通过统计测量手段计算出来的结果，不能完全脱离对文本或者词语索引的观察和分析。

关于搭配分析中采用的统计方法，Sinclair在1996就曾指出过，使用一些数学统计方法只是语言分析的第一个阶段，并且要与其他类型的语言分析过度依赖统计方法的做法严格区分开来（Sinclair，2004a：28）。另外，Sinclair在与Wolfgang Teubert的一次访谈中旗帜鲜明地表达了自己的观点（Sinclair et al ., 2004）。他指出，在伯明翰大学的工作团队里，有专门从事统计学研究的工作成员，他们使用了很多统计手段来测量搭配显著性，其中有些测量手段非常复杂。但是经过多年实践研究之后，他对这些测量手段却越来越心存疑虑：“由于没有别的更好的测量手段，我在日常研究分析中仍然使用T值，但是我已经失去了对T值计算和其他测量手段最初的那份信任。”（Sinclair et al ., 2004：xxi）原因是，在实际语料分析中，文本中实际共现的词的频次要远超于通过测量手段计算出来的期望值。虽然Firth曾指出搭配研究必须依靠统计结果而不是通过语言直觉进行分类分析，并区分了显著性搭配（significant collocations）和偶然性搭配（casual collocations），但他并没有具体说明使用什么样的统计测量手段。Sinclair（Sinclair et al ., 2004：10）曾沿用过这对术语，之后把显著性搭配称为规律性搭配（regular collocations），原因是他的工作团队中的负责统计测量的成员认为“显著性”一词更适用于阐释统计学上的意义。所谓规律性，指搭配的词语共现频次非常高。Sinclair（2007）指出，实际的语言使用并不是一系列“偶然发生”（chance occurrences），因此关于偶然发生或显著性的统计学概念不应该用来说明词语之间是否存在搭配关系。众所周知，我们基于共选模式使用词汇，但统计测量方法所基于的前提假设是词汇使用时具有偶然性，这个假设本身就存在着错误。因此，从严格意义上讲，我们在搭配研究中是没有必要使用统计测量方法的。实际上，统计测量方法本身并没有多大问题，问题出在我们对语言形式和意义的关系理解上出现了偏差。按照“共选模式理论”，词汇之间的共选会产生新的意义，换言之，词汇共选模式发生改变，意义也会随之改变，这些不同共选模式之间也是不相关的。但是，Sinclair（2004a）指出，由于语料库数据巨大，分析工作的强度要远远超出人的能力范围，因此数据分析最终还是要依赖于电脑，还是要设计出更为合理的统计测量手段，去模拟我们的觉察力，甚至我们的语言直觉，但是将这些统计测量与语言意义直接联系起来却是件非常困难的事情。

Sinclair（1991）把搭配视为短语研究的重要内容之一，因为他在“搭配”一节的小结部分写道：“所有的证据都说明了短语虽然表面上变化多样，但从根本上来看是固定的、是约定俗成的。”（Sinclair，1991：121）短语通常对意义是具有识别力的。短语实现为词汇在线性结构上的共现，是词汇的物理表象，但这种共现的结构又与语义存在相当部分的重叠，尽管语义是纵聚合的（paradigmatic），是凭直觉和联想而获得的。也就是说，Sinclair将语言结构和语义视为不可分割的一个整体，认为没有必要开展独立的语义学研究，短语结构研究的最终目的是实现对语义的研究。“搭配是意义模式的重要组成部分”（Sinclair et al ., 2004：xviii）。

搭配是词与词在横组合关系上的共现，属于结构模式，而意义是纵聚合的、联想的，那么搭配又如何与意义发生联系，成为意义模式的重要组成部分呢？对于这个问题，Firth给出的解释是：搭配为词汇的意义提供了语境，即词汇的搭配义，搭配不同，词汇的意义也就不同。搭配赋予了词新意，或者说，搭配提升了词的意义，如dark与night搭配，前者赋予或者说是增加了后者“漆黑”的含义。Firth提出搭配义的目的是要与概念义区别开来，但他仍然将单词作为一个意义单位来对待。而Sinclair则将搭配看成是一个整体，是一个潜在的意义单位，dark与night一旦搭配，便与单个单词的意义没有关系。搭配并不是提升了词的意义，相反，是限制了搭配中词的意义。也就是说，dark night实际上并不是单词night的其中一个意义，这个搭配具有自己的意义。简单来说，dark的概念其实业已存在于night的概念中，即night的一个主要特点就是dark，尽管夜不一定都是黑的，形容词dark的作用就是从所有的夜的概念中选择出黑夜。Sinclair（Sinclair et al ., 2004：xxi）将这种功能称为形容词的“聚焦功能”（focusing function），这与“选择功能”（selective function）不同。

Firth没有打破传统语言学理论中将单词作为最基本的意义单位的藩篱，事实上，放弃这种传统观念并不是件容易的事情，相反“需要经过很长一段时间”（Sinclair et al ., 2004：xxi）。Sinclair的研究就是要证明短语才是语言中真正的意义单位。到现在，人们对意义单位的认识也的确发生了变化，并承认掌握搭配是语言流利程度的一项重要指标。“但是研究者并没有将搭配看成是严格意义上的意义单位，而好像只是把它们看成是固定表达的一种扩展”（Sinclair et al ., 2004：xxiv）。这主要还是受到传统语言学理论的影响。根据传统语言学理论，语言表达要不就是固定的习语表达，要不就是纯粹依据句法规则建构的自由组合。而在Sinclair看来，语言中的大多数表达是介于这两个极端中间的。但是他的这一观点并不被大家广泛接受，主要原因是人们对搭配概念理解的不确定性。Sinclair（Sinclair et al ., 2004：xxiv）对于这种不确定性做了一个形象的比喻：“这种感觉就像是踩在流沙上，脚下的流沙一直在不断地流淌着，因为这些新的实体（搭配）不是通过语法规则建构的，也不是永恒不变的。”Sinclair将搭配的这种特点称为“内在模糊性”（inherent fuzziness）。Sinclair（Sinclair et al ., 2004：xxiv）接着又指出我们需要建立一种新的语言模型，从每个词项的所有变化形式中找到其最典型的形式。例如，在短语get in touch with中，in touch with是始终不变的，get是默认的搭配词，它可以被其他动词如bring、be、keep、remain等代替。也就是说，短语get in touch with是这个短语的典型形式，而bring in touch with、be in touch with、keep in touch with、remain in touch with等属于该词项的变化形式。Sinclair认为对于学习者来说，最主要的学习任务就是掌握短语的典型形式，并且主张编纂一本学习词典，它包括了短语的典型形式和变化形式，供学生学习使用。那么，该如何识别提取短语的典型形式呢？Sinclair提出可以借助计算机手段，却没有进一步说明应该使用什么具体方法。实际上，Sinclair提出了很多很好的想法和设想，包括他的“扩展意义单位”（extended unit of meaning）（Sinclair，1996b）。尽管这些概念是基于对大型语料库数据分析的结果，但缺少具体量化的算法和参数，难以在大型的语料库数据中进行批量处理和分析。但毫无疑问，Sinclair的学术思想为我们开展语料库短语学研究提供了努力的方向和重要的参考价值。

造成对搭配概念理解的不确定性的另一个原因是来自日常的语言学习和使用经验。尽管日常语言使用中习语出现的频数不多，但学习与掌握起来并不是很困难，原因是人们意识到它们是习语，会给予更多的关注。而对于搭配却缺失这样的语言意识。Teubert（Sinclair et al ., 2004：xxviii）曾提到过这样一种现象，外语学习者很快就能学会使用raining cats and dogs这样的习语，但却要花费很多时间才能够认识介词on the strength of。Sinclair（Sinclair et al ., 2004）对此的解释是，尽管习语在文本中出现的频数很小，但由于它通常是受到文化因素影响的制式化的语言形式，能够提供给学生诸多的东西去讨论，也非常有趣，因此很容易引起学习者的注意。但是习语不是搭配，搭配也不是习语的外围。习语中的每个成分几乎不可能独立地对习语的意义有所贡献，如习语raining cats and dogs所表达的意义和猫、狗没有任何关系。因此，笔者认为，开展语料库短语学研究，通过对语言形式的描写与再认识，并且将语言形式纳入语言意义，重新建构语言意义单位，让人们意识到语言表达除了固定的习语表达和完全依靠语法规则的自由组合之外，还存在着许多诸如搭配的短语形式，这对于语言意义的建构具有重要的理论和应用价值。但是，我们也应意识到，对到底什么是意义单位的讨论尚无定论，就连Sinclair自己也承认意义包含着一些神秘的因素，并且这种神秘的因素一直存在，我们不可能全部掌握，最终也不可能完全精确地阐释，因为说到底“意义是个体心智里的一种感知，对此我们是无法仅靠语言学技术看透的……意义是临时性的、是特别的，不可能完全记录在参考书里”（Sinclair et al ., 2004：xxviii）。但是意义始终是所有语言描述的“试金石”（touchstone），指引着语言描述的方向。

我们发现，Sinclair在讨论搭配时，并没有出现过诸如动词搭配、名词搭配、动名搭配的说法，但是许多学者却把这些“搭配”作为研究对象。对于Sinclair而言，搭配研究强调的是词的搭配，是词在线性关系上的共现，和语法没有太多关系。以just a minute搭配为例，Sinclair（Sinclair et al ., 2004：xxvi）指出，just和a的出现，不是因为它们的词性，而是作为一个具体的词而被选择的，这种选择纯粹是词汇性的，而不是语法性的。对于minute而言，尽管在这个位置上还会出现其他的词，如second，但是数量极其有限，这同样也是词汇性的选择，而不是语法性的。其实，Sinclair并不是要故意贬低语法的价值，只是他认为在过去的语言学研究中语法占据太多的地位，而词汇则是个被忽视的领域。但是对于意义而言，Sinclair认为是词汇创造了意义，而语法则对意义起到管理（management）的作用，本身并不能够创造意义。他举下例说明：在on the strength of his CV he was offered a job和on the strength of this chemical solution中，同为介词的on the strength of却表达不同的意义。正是由于词的选择，才产生了意义。“没有选择，就没有意义”（Sinclair et al ., 2004：xxvi）。因此，他批判了有些人将搭配看成必须落在语法界限范围之内的观点。但是，在短语研究中，语法具有什么的地位和作用？这个问题值得我们深入讨论。但可以明确的是，Sinclair并不主张完全抛弃语法，他在评价“型式语法”（pattern grammar）的时候指出：“型式语法向我们显示，当我们深入研究词汇－语法时，会发现语法范畴开始与意义区分紧密地连接在一起”（Sinclair et al ., 2004：xxvii）。另外，Sinclair（2004a）也尝试去挖掘高频语法词具有的搭配模式，并且指出不管什么样的语法范畴，任何词都具有极其丰富的搭配模式。另外，他还批驳了传统词典学所主张的假设，即语法角色的变化不会影响词汇的语义值，而事实上，即便是单词的屈折变化都会引起词语搭配的变异。Sinclair（Sinclair et al ，2004：16）在谈到未来搭配研究时指出要研究语法对搭配的影响，“语法对搭配的影响很大，语法时常遮蔽或者遮断词汇的搭配模式……因此我们无法忽视语法对搭配的影响，但是我们可以经过对语法进行足够精确的界定，以便于同词汇的影响区分开来。”语法对搭配的影响之一是，在某些搭配模式中，某些词性范畴之间相互吸引，但是具体到哪些词形出现并不受语法限制。Sinclair对配价语法（valency grammar）也持乐观态度：“在未来几年，对配价语法的研究兴趣会日益高涨”（Sinclair 2004a：18），而配价语法中就包含了多层语法范畴。种种事实表明，Sinclair并不是完全抛弃语法，相反，他自己也曾经写过几本有关语法的书。正如前文所述，他尽量避免语法，其中一个重要原因就是他认为语法研究太受关注，词汇研究备受冷落，然而，词汇能直接创造意义，离开词汇去谈语法是空中楼阁。

Sinclair在他的搭配研究中多次提到“词项”（lexical items）的概念：“一个词项就是一个语言单位，它代表了一个独特的意义范围，并且与其他词项具有一个特别的共现模式”（Sinclair et al ., 2004：9）。在形式上，“词项”可以是：一个语素；同形异义词；一对或者一组按照纵聚合关系联系的词，如单词kick和它的屈折变化形式kicks、kicking、kicked；一对或者一组按照横组合关系联系的词组，如run to seed。但是在实际搭配研究中，词项分析并不简单，往往是先从一个具体的词语入手，通过分析其搭配行为来找到更为复杂的词项。从Sinclair的研究实践中，我们也可以看出，他在选择具体词语时多少带有一些任意性，彰显了一个语言学大师所具有的灵敏的语言直觉和敏锐的观察力。

2.3　语料库视角下的短语研究

上一节主要介绍了短语学研究的三个派别，并重点介绍了Sinclair的搭配研究。接下来我们将详细述评语料库短语学研究的其他途径和方法。

2.3.1　扩展意义单位和意义移变单位

语料库短语学研究的目的不只是为了描写短语的结构，最终还是要找到语言的意义单位。传统语言研究认为，单词是一个独立的意义单位，是建构其他更大语言单位如短语、句子、段落、篇章的基本单位。传统的词典就是依据这种观点进行编纂的，基本的词条是单词，单词本身又包含若干个概念义。Firth指出词汇具有搭配义，与词的概念义完全不同，而Sinclair则走得更远，将意义单位扩展到“词项”，而“词项”并不是一个单词，更多情况下是多词单位（multi-word units）。既然意义是描写语言学研究的终极关怀，那么首先就要弄清楚实现意义的语言单位是什么，因为语言学研究应该通过语言形式来分析语言意义，而不是其他别的途径。Sinclair从搭配到扩展意义单位，再到意义转移单位（meaning shift unit），在探索意义单位的道路上走得更远。

上节已详细介绍了Sinclair有关搭配的界定和研究思路，这里主要介绍他的扩展意义单位和意义移变单位。经过长期的观察分析，Sinclair（2004a：29）认为“词项”或者“语言项”（linguistic items）的概念可以被扩展，至少对英语来讲是这样的，所以意义单位很可能是更大范围的短语，这个短语单位可能超越搭配的界限。问题是这个更大单位是否有边界？如果有的话，边界在哪里？基于对这些问题的思考，以及对大量语料的观察，Sinclair提出了扩展意义单位的概念及其分析路径。扩展意义单位的分析综合了多个概念，包括搭配、类联接（colligation）、语义趋向（semantic preference）以及语义韵（semantic prosody）。它们之间协同作用，共同界定了语言中的意义单位，根据Sinclair，这个扩展意义单位应该已经逼近了我们所要找的意义单位的边界。

Sinclair（2004a）为验证扩展意义单位分析的可行性，选择了四种不同的词语作为分析的出发点（Sinclair把这些词语称为扩展意义单位的核）：习语naked eye、搭配true feelings、低频词brook、高频词place，分析的结果显现出高度的一致性。我们以习语naked eye为例，来解释扩展意义单位的分析机制。首先，以naked eye为搜索节点词，从语料库中提出该节点词的词语索引，并做去噪处理，主要删除一些明显是由于检索软件造成的同例重复的词语索引。通过初步观察，发现该习语的主要结构范式位于它的左侧。在左1的位置上，绝大多数情况下都出现了the，故判断the和naked eye构成搭配关系，是短语的必要成分。然后，继续向左观察，发现在左2的位置上主要出现了with、to两个介词，以及其他介词by、from、as、upon、than等。由于这里的词形变体比较多，无法用搭配来描述，但在词性上都属于介词的范畴，故使用类联接来概括这个位置上的语法特征。所谓类联接指语法范畴的共现，但Sinclair（2004a：32）指出这里的类联接不是完整意义上的类联接（这里所谓的不完整，指的是与Firth所提出的类联接概念相比较，有关Firth对于类联接的阐释内容，我们另辟专门章节详细介绍）。到目前为止，短语已经由原来的naked eye扩展到“介词+the+naked eye”，但是尚未抵达意义单位的边界。继续向左观察，发现在左3或者附近的位置上经常出现两个词以及变化形式：see和visible。显然，这里用搭配来描述不太合适，因为语言变体较多，但是用类联接也不是很恰当，因为类联接只能概括这个位置上的词性，而这个位置上出现的词性并不统一，包括了动词、形容词、名词等。尽管具有不同的词性，但这些词在意义上出现了一定的趋向性。因此，Sinclair用语义趋向的概念来概括这个位置上的词，发现它们享有一个共同的语义，即“可视性”（visibility）。Sinclair（2004a：33）指出，语义趋向暗示了一种松散的句法组织，因此在判断语义趋向时不用严格参照搭配研究的位置分析。具体到该例中，表示可视性的词语不仅出现在naked eye左3的位置，还可能是左4，甚至会出现在它的右面。另外，要把语义趋向与类联接充分联系起来，因为这两个概念都具有一定程度的抽象，类联接是语法层面上的抽象，而语义趋向是语义层面上的抽象，并且两种抽象经常发生关联。例如，在该例中，表示可视性语义趋向的可以是动词，也可以是形容词，并且词性的选择与第二层的类联接也发生关联。也就是说，表示可视性的动词与with共现，而形容词则与to共现。尽管这种关联未必作为一种必要条件出现在其他的扩展意义单位中，但至少可以说明一个问题，扩展意义单位分析的各个层面之间不是相互孤立的，而是彼此交错，相互关联。

语义趋向分析还是没有抵达意义单位的边界，因为通过仔细观察扩展语境（extended context），我们发现在语义趋向的外面出现了small、faint、weak、difficult、barely、rarely等词。Sinclair提出用“语义韵”来概括这些词语的语用特征，即“困难”的语用功能。“语义韵是表态度的，处于语义－语用连续统的语用端”（2004a：34）。在Sinclair看来，语义韵的实现范围很广，与短语的语义值不一定相关，但在将“词项”与语境整合的过程中扮演着非常重要的角色，关乎了该“词项”的交际功能。到此，Sinclair认为已经逼近了意义单位的边界。具体到该例中，序列“可视性＋介词＋ the+naked eye ”除了本身的语义外，还表达了一定“难度”的语用功能。在这个意义单位中，语义趋向、类联接，搭配都会因具体的词形而发生一些变化，只有the naked eye是不变的，Sinclair称之为“核”（core）。通过对naked eye的分析，我们看到Sinclair的扩展意义单位模型包含了核、搭配、类联接、语义趋向和语义韵。Sinclair进一步假设，在具体的语言交际中，语言使用者首先会选择一个语义韵，而语义韵控制着语义趋向，语义趋向又控制了类联接和搭配，这样逐层下去直到实现为具体的词语表达。

通过对扩展意义单位的分析，Sinclair（2004a）得出两个重要的观察：①意义单位的起始端（语义韵）通常是很难观察到的，是隐含的，而它的终端（核）却是固定的，也是明显的。但是如果扩展意义单位分析是正确的话，那么整个单位无疑应该被看成是单一选择的结果，当然也会附带着一些结构内部的选择。②对于语义韵的最初选择是属于功能性的，它把意义和目的连接起来，而单位内部所有其他的选择都要回溯到语义韵那里。对于扩展意义单位中存在的许多变化，Sinclair（2004a：35）给出了这样的解释，当恰当地借助一些抽象范畴（这里指类联接和语义趋向）来描写时，变化便会消失。另外，尽管存在着这些变化，但总是会有一个明晰的首选落实到实际的词语上。我们发现，越是靠近“核”，变化越小，而越是远离“核”，变化就越大，这主要是受到建构不同语言表述的压力所致。Sinclair预测，如果经过大量的数据分析证实扩展意义单位确实存在，它将在语言描述中承担着关键的角色，并会影响乃至改变我们传统的语言观念。

扩展意义单位分析具有非常重要的理论和实践价值。首先，如果说搭配研究改变了传统语言学把单个单词视为意义单位的思想，那么扩展意义单位则突破了搭配的界限，扩大了意义单位的边界。其次，扩展意义单位是多维一体的，不仅包括具体的词语，还包括句法结构、语义、语用，将词语、结构、语义和功能结合在一起，目前其他任何语言描写模型都无法与之媲美。如果扩展意义单位能够接受大量数据的检验，再配上有效的统计方法，势必会对描写语言学产生重要影响，甚至会引起我们对语言的再认识。再次，扩展意义单位的主要成分，即搭配、类联接、语义趋向、语义韵，既相互区别又彼此关联。扩展意义单位的分析并非严格按照步骤程序逐步分层进行，除了核与语义韵是必要成分之外，其他三个均为可选成分，并且它们之间可以相互交错，例如对语义趋向层面也可以做类联接的分析。

Sinclair（转引自Cheng et al ., 2008：237）之后对语料库驱动的语言描写研究进行了补充与完善，并提出了“意义移变单位”。所谓意义移变单位，用Sinclair的话就是“指我们曾经模糊地称为搭配的东西，它更应该强调这样一个主要准则，就是单位成分的共选产生周围语境意义的变化”（Cheng et al ., 2008：237）。也就是说，原有短语单位内部词语成分的重新排列组合都会产生意义上的移变，但是跟这些词语在其他语境中与其他别的词语的组合相比，其意义移变是相对微妙的，甚至是不明显的。这种组合的改变实际上就是共选模式的改变，共选模式的改变引起了意义的移变，这是Sinclair主要的语言观。没有选择，就没有意义，共选产生意义。换言之，即使是一组相同的词语，当它们的共选模式发生了改变，意义也会随着发生移变，并且与它们各自的意义不相关联。那么，为什么不用“词项”或者其他的术语，而选择使用意义移变单位呢？Sinclair给出的解释是：“主要是因为词项会让人联想起词条，而不会联想到结构。”（Cheng et al ., 2008：237）这里的结构并不指纯粹的语法结构，而是词汇的共选结构。由此可见，意义移变单位较“词项、搭配、扩展意义单位”等概念更为抽象一些，可以用来解释意义单位中出现的各种变体形式。因此，在意义移变单位中存在基本形式以及变体形式，不同的共选模式便产生不同的意义移变单位。Cheng等（2008）对于“同现词列”（concgrams）的研究就是基于意义移变单位的思想，以ROLE和PLAY的共现为例，研究了非连续意义单位的特点。

2.3.2　同现词列

基于Sinclair的意义移变单位，Cheng等（2006，2008）开展了同现词列的研究。Sinclair提出意义移变单位，修正了相关的统计方法，特别是计算搭配显著性的统计方法。例如，他指出在过去的搭配统计中，把语料库中某个搭配出现的频数与搭配中各成分的频数进行对比的做法完全是错误的，主要是因为当词语的共选模式发生改变，新的意义就会产生。也就是说，搭配的意义具有整体性，与其各个成分在其他不同搭配中的意义没有关联。Sinclair以“hard+work”为例，指出当统计结果显示这两个词的共现是显著的话，那么它们共现的所有实例都是不可分开的语言实体，对于这两个词的“行为”（behavior）可以通过它们在意义单位中的身份予以解释。另外，“hard+work”的搭配与单词hard和work在其他搭配形式中是不相关的，也就是说，“hard+work”搭配中的单词hard和其他搭配（不出现单词work）中的单词hard“仅仅是一种同形异义词的关系”（转引自Cheng et al ., 2008：237），这些不同的搭配实际上就是不同的意义移变单位。Cheng等（2006，2008）接受了Sinclair有关意义移变单位的思想，进而想通过识别大量的意义移变单位来达到充分描写语言中的短语学特点，但问题是如何从语料库中自动提取这些意义移变单位。研究者通常使用“n元模型”（n-gram）或者“跨元模型”（skip-gram）的方法从语料库中自动提取多词单位，但是这两种方法都有缺陷：n元模型只能提取到连续的多词单位，而跨元模型尽管可以提取非连续性的多词单位，但目前只能提取最多四个词的单位，另外无法提取到多词单位在结构位置上的变体形式。为了帮助识别语料库中的意义移变单位，也为了克服之前研究的弊端，Cheng等（2006，2008）提出了同现词列的分析方法。同现词列指共现词的所有实例，共现词之间可以是连续的，也可以是非连续的，并且不一定具有相同的“排列次序”（sequential order）。同现词列充分考虑了意义移变单位在成分的排序上以及位置上的变化。例如，work hard和work very hard属于排序上的差别，而work hard和hard work则属于位置上的变化。同现词列分析的设计原则是以“搜索源”（origin）为中心，在其左、右各12个单词的跨距（跨距可以根据研究者需求自行设定）内检索与其共现的词，所有的在同一个同现词列下检索到的，包括成分和位置上的变化形式共同构成“同现词列构型”（concgram configurations）。Cheng等（2006）使用搜索源而不是“搜索词”（node），主要是因为他们认为搜索词无法展示同现词列中的层级关系。原来Sinclair所定义的搜索词和搭配词的身份可以互换，而搜索源则不同，类似于Sinclair提出的扩展意义单位中的“核”，是固定不变的。同现词列构型为进一步分析提供数据源。首先分析模型中的词是否以及如何联系，进而识别出同现词列的“规范形式”（canonical form），并以该规范形式为标准对构型中其他的同现词列形式进行比较，按照与规范形式意义相关的程度进行排序，最后识别出同现词列的意义移变单位及其所有的变化形式。分析的最终结果就是获得一个简化的短语意义模型，这个模型将意义移变单位的可做释义的变化形式与其他分离的、不相关的意义单位区分开来（Cheng et al ., 2008：238）。

Cheng等（2006）给出了同现词列分析的具体方法和步骤。第一步，通过ConcGram软件自动获取语料库中的形符表；第二步，基于该词表，以每个形符为搜索源检索出“两词同现词列”（two-word concgram），并且列出每个搜索源具有的共现词，通过T值和MI值计算出共现词与搜索源之间联系的显著性。第三步，将每个同现词列以同现词列列表的形式显示出来，并且标示出成分排序和位置上的变化形式。第四步，基于所有的两词同现词列，通过双检索源检索出三词同现词列，然后按照同样的检索步骤，找到四词，乃至五词的同现词列。

Cheng等（2008）继续深入同现词列研究，对通过ConcGram软件检索到的同现词列排列进行描写分析，识别出意义移变单位、它的规范形式以及变化形式。他们分析了两词同现词列“PLAY/ROLE”。分析包括如下一些主要内容：首先找到该同现词列中的意义移变单位的规范形式。为此，他们借鉴了Sinclair & Mauranen（2006）提出的两个线性语法中的概念：文本对象（textual objects）和文本事件（textual incident）。文本对象包括主要的传统词性，如名词、形容词、动词和副词，它们或以本身的词性独立出现或者作为短语的主导词出现，并且是一个单独的语言实体，往往具有向心关系（endocentric relationship），如role play作为一个名词短语，两个词之间呈向心关系。文本事件指由至少两个文本对象组成，并且相互之间呈现内部的离心关系（exocentric relationship），如短语play a role，play和a role是两个文本对象，一起构成了文本事件，呈现内部的离心关系。经过分析，他们发现，除了频数因素外，决定规范形式的主要因素是要看意义单位属于文本对象还是文本事件。例如，“两词同现词列”PLAY/ROLE中包含两个规范模型，一个是PLAY∗∗ROLE（每个星号代表一个单词），另一个是ROLE/PLAY（名词短语），前一个是文本事件，后一个是文本对象。每个规范形式代表了一个意义移变单位。其次，他们分析了意义移变单位的规范形式与变化形式之间的关联性。为此，他们提出了“动荡系数”（degree of turbulence），指变化形式与规范形式在形式和意义上的差异性。经过分析，他们发现介入规范形式的词越多，动荡系数就越大，就离规范形式越远。他们对变化形式按照动荡系数由底到高进行排序。

Cheng等（2006，2008）开展语料库驱动的同现词列研究，一方面是为了全面描写语言中的短语特点，发现语言中的意义移变单位，另一方面也是为了克服之前的 n 元模型和跨元模型存在的不足。根据Cheng等（2006，2008）的说明，同现词列分析是自动的，所得到的同现词列构型为进一步开展意义移变单位研究提供了数据源。因此，我们可以说同现词列分析是具有一定进步性的：首先，在理论上遵循着Sinclair提出的意义移变单位的理念；其次，实现了Sinclair提出的意义单位的规范形式和变体的自动提取。但是，同现词列分析也存在着一些问题：首先，在计算两词同现词列时，采用了T值和MI值，尽管这是目前在搭配研究中被广泛采用的统计方法，但其效果并不是特别令人满意，就连Sinclair自己也对它们丧失了原有的信心。在实际分析中，Cheng等（2008）也的确发现通过两种方法得出的统计结果不完全一致。另外，在三词以上的同现词列分析中，无法再使用这些统计方法，只能依靠最原始的频数信息。其次，通过统计方法计算出来的同现词列包含了许多不真实的搭配信息。如Cheng等（2006）通过ConcGram检索出两词同现词列ALRIGHT/SO，指出这两个词在口语英语中关联系数很大。但是我们从研究中给出的词语索引中找到这样的例子：“I think you need to do so many things. Alright .”，“you will obtain so called the resonance alright this is the resonance”，“in a group okay so that you can talk alright er let’s let us have”。通过观察这些索引，我们发现RIGHT和SO并不是直接关联的，相反SO和其他词的搭配关系要更加显著。另外，在四词同现词列CASE/THE/IS/THIS中，我们发现这样的例子：“now if rent is true in this case the question come up with”，“if you talk about competitors in this case that is the threat”，我们很难去判断这些词之间的关联。虽然Cheng等（2006）把这些例子解释为该同现词列规范形式的变化形式，并且离规范形式距离较远，但这种解释却非常牵强。因此，在同现词列分析中，存在这一个无法克服的难题，如果设置的跨距小了，会漏掉一些可能的非连续的、在位置上变化大的单位，但若设置的跨距大了，就会出现很多无用的干扰信息。第三，同现词列分析摒弃了一般搭配检索时采用的搜索词，而使用了搜索源，理由是搜索词无法展示意义单位的层级关系，并且容易与搭配词发生角色互换。搜索源可以是一个词形，也可以是两个词以上的同现词列，这个同现词列不一定是连续的单位，也可以是非连续性的多词单位。Cheng等（2006）之所以使用搜索源的概念，实际上是想与Sinclair提出的扩展意义单位中的核的概念相照应，这一点在之后的研究中也得到了验证（Cheng et al ., 2008：248—249）。但是，无论两词、三词，抑或四词，乃至五词同现词列分析，其结果都是检查了具体词汇之间是否具有搭配关系，尽管同现词列排列中包括了各种各样的变体，同现词列表示的也只是具体的词，缺少扩展意义单位中涉及的语法、语义和语用层面上的抽象，而这些抽象的范畴正好能够解释多词意义单位中存在着的丰富的变化。尽管Cheng等（2008：248—249）使用了扩展意义单位中的五个核心概念，即核、搭配、类联接、语义趋向和语义韵来分析同现词列，但在具体的分析过程中，对这些概念的处理是相互独立的，是碎片式的，忽视了它们之间原有的联系。另外，还有其他一些问题没有解决，如同现词列的边界问题，同现词列的语用功能问题，等等。从这个意义上讲，同现词列分析实际上只是帮助到扩展意义单位中的核，以及核的搭配，但若要想发现完整意义上的意义单位，则需要采用扩展意义单位分析的途径，在词语、语法、语义和语用等多个层面上进行综合分析。

2.3.3　词束

Biber等（1999）将词束（lexical bundles）定义为在某个语域中经常重复出现的多词序列。这个定义包含了三重含义：首先，词束是一个多词单位，其次，频数是判断词束的主要标准，第三，词束考虑了文本语域的因素，重点强调了词束在不同语域中的语篇功能。根据Biber等（2004）的考查，Salem最早于1987年就开展基于法语政府文件语料库的词束研究，Altenberg最早调查分析英语语料库中的复现的词的序列，而基于大型语料库进行大规模系统研究词束的是Biber等（1999）。对于他们早期的研究工作，Biber等（2004：373）曾做出过这样的总结：①研究采用了语域的视角，考虑了口语会话和学术书面语的差异；②研究基于大型语料库（每个语域有500万词次），数据规模庞大；③频数是判断词束的主要标准，根据经验来设置频数的临界值；④重点考察了四词、五词、六词词束，词束的长度要大于其他以往的相关研究。

目前，从语料库中提取词束，主要采用的是对语言进行机械切分的技术。语料库检索软件Wordsmith Tools中的“词丛”（cluster）功能，可对语料进行两词以上的自动切分。切分的工作原理非常简单，如对“I saw a saw saw a saw”进行三词词丛切分会得到：I saw a，saw a saw，a saw saw，saw saw a，saw a saw等五个单位。软件可自动统计所切词丛的频数信息。Biber等（2004）指出，大多数通过自动切分得到的高频词束并不是习语性表达，相反，一些习语和固定表达在机切词束中出现的频数并不高。另外，绝大多数词束并不是结构完整的语言单位，在口语语料中只有约百分之十五的词束是结构完整的单位，在笔语语料中只有约百分之五。虽然这些词束在结构上不完整，但复现率非常高，远远超乎语言使用者的语言直觉。

另外，并不是所有的词束对语言研究都有价值。那么，研究者应该挑选哪些有用的词束呢？Biber等（1999，2004）提出了两个标准：第一个是频数，即词束的复现率一定要高。但问题是，复现率达到多高的词束才有意义，这涉及频数临界点的设置。Biber等（2004：376）也承认频数临界点的设置是个经验值，具有一定的任意性。在实际研究中，研究者往往结合研究目的和对象自行设定，如Biber等（1999）最初设定的临界点是每一百万词出现十次，之后又把临界点提升到每一百万词出现40次（Biber，Conrad & Cortes，2004）。Cortes（2002，转引自McCarthy & Carter 2006）设置的频数临界点为每一百万词出现二十次，McCarthy & Carter（2006）设置为每一百万词出现四次。应该采用哪个标准，研究者莫衷一是。虽然遭到批评者的诟病，但是相关研究还是采用经验值，因为设置频数临界点的目的是获得复现率较高的词束，屏蔽掉一些出现频率不高的干扰信息，虽然这样做也可能会屏蔽掉一些习语和结构意义固定的表达，但是这些表达在实际语言使用中使用的频数本来就不高，并不是词束研究关注的重点。Biber等（2004）也指出，频数值是不具解释性的，使用频数信息的意义在于，它能够帮助我们找到仅靠语言直觉无法觉察到的语言使用的范式。当然，通过频数信息找到的范式必须进行再加工，从语言学层面上进行阐释。使用频数信息的另外一个意义在于，依靠频数，我们可以判断词束在多大程度上是作为一个整体储存在人的大脑中，并作为一个预制性语块被语言使用者使用。换言之，相较于出现频数低的词束，出现频数高的词束更有可能作为一个免于分析的语块被储存和使用。除了频数之外，分布（distribution）也是判断词束的一种重要标准。所谓分布，指词束在不同文本中的覆盖率。考虑分布，主要是为了避免因个别文本的语言特征而引起词束出现频数的异常。同时使用频数和分布，能够最大可能地提高词束判断的科学性。

通过对语言自动切分获得的词束需要做进一步的语言学分析。Biber等人使用三维一体的分析方法，对词束进行结构描述、功能分类和语域比较。如果按照传统语法描写规则，大多数词束在结构上是不完整的，是支离破碎的，是随意的字符串，语言学意义并不大。但在Biber看来，这些词束绝对具有清晰的结构关联，它们通常包括一个小句或者短语的起始部分，紧跟着另外一个嵌入式结构的首词，如一个非独立的补充句或者介词短语。Biber把词束的这种结构描写成“结构框架＋空位”（structural frames+a slot）。其中结构框架承担填补空位的新信息的“语篇锚”（discourse anchor），用于告诉听者或者读者如何从态度、语篇组织和命题内容的角度去理解新信息。从Biber对词束结构的描写中我们可以看出，他们还是采用了传统的语法范畴，如词性、句法功能等。这一点给我们的启示是，在描写短语时，可适当借鉴一些传统的语法范畴。词束的功能分析不可避免地受到已有语言学理论的影响。他们主要对词束的功能进行了分类，从大的类别上区分了三种，即立场表达（stance expression）、语篇组织（discourse organizer）和指示表达（referential expression），并且对每个大的类别又进行了更为细致的分类。这三大功能被认为是词束的三个首要功能。Biber等人在具体分析词束功能时，主要通过归纳法，即把意义和用法相似的词束归并在一起，然后总结归纳出其共同的功能。但是有时也会出现一个词束兼具多种功能的情况。将词束的结构和功能联系之后，他们发现在二者之间有着非常直接牢靠的关系，即某种结构的词束倾向于表达某种特定的功能。在对词束进行不同语域类别间比较之后，他们发现词束的结构、功能和应用的语域类别之间存在着紧密的联系，不同结构、功能的词束在不同的语域内的使用与分布是不一样的。因此，Biber等（2004：400）大胆地假设，语言使用者是把词束作为一个无需通过生成语法结构分析的多词单位去储存和使用的。

McCarthy & Carter（2006）也采用了自动切分词束的方法来研究英语口语中的多词单位。在他们看来，在口语语料库中通过自动切分获得的大多数词束虽然在句法上不完整，但却是具有意义的词汇串，是“语言交互单位”（units of interaction），具有“语用整合性”（pragmatic integrity），表达各种语用交互功能，如标记话语、顾及体面、表达礼貌、模糊语等，体现的不是交际内容或者命题，而是说话者和听话者之间的交互关系。由于这些具有语用功能的词束在句法和语义上往往不完整，因此对于它们的分析必定涉及大量的定性工作。该研究的意义在于：首先，再一次验证了单个单词并不是最好的描写语言的单位，词汇也不是一个杂乱无章的集；其次，通过自动切分获得的词束，虽然大多数在句法和语义上并不具有完整性，但却是“一气呵成的、连贯的、有词汇和语法范式的、可表达语义和语用功能的话语序列”（O’Keeffe，McCarthy & Carter，2007：63）。有些词束在频数上甚至要超过某些高频使用的单词。

对于词束研究的语言学地位，Sinclair（2008b：410）予以了肯定，他认为用计算机自动切分并提取词束，不但能提升量化研究的准确性，而且其结果能凸显规律性的特征，因此“可以是自成一体的结构模式，其优越性在于它能够更穷尽地勾勒出整个语篇的词汇相貌”（转引自何安平2013：68）。

2.3.4　搭配框架

大多数搭配研究的对象是词汇词，但Sinclair（2004a：xix）却认为语法词也具有明显的搭配特征。Renouf & Sinclair（1991：129）指出，由于语法词的特殊性，在描写其搭配特征时要特别注意如下几点：①在语法层面，语法词的搭配所处的位置比较尴尬，通常位于词与词组之间；②在词汇层面，语法词的搭配会被传统的词汇词搭配研究所忽视；③在语义层面，并没有一套成熟的办法来处理语法词的搭配，传统的做法是把搭配在一起的语法词看成各自独立的词，或者把它们看成是相互依赖的一个单位。基于对大量语料库数据的观察分析，Renouf & Sinclair（1991：128）明确指出：“语法词之间的共现现象极其普遍，出现的频数有时会远超出语法词与词汇词的共现。”他们把语法词的共现命名为“搭配框架”（collocational framework）。所谓搭配框架，指两个语法词之间的非连续性序列，两个词没有层级之分，可以以其中任何一个词定位，框架本身在语法上并不是独立的，其结构的完整性依赖于其他的介入成分。Renouf & Sinclair（1991）主要关注了两个语法词即of和to构成的搭配框架，如a+？+of、be+？+to、for+？+of、an+？+of、too+？+to、had+？+of、many+？+of等。他们在大型语料库中进行了大量的实证分析，结果发现：首先，搭配框架出现频数非常高，是语言的重要内容，能够与许多词构成搭配关系，并且是这些搭配词的主要搭配形式；其次，搭配框架对于搭配词具有高度选择性，并且当共同构成的语言单位越小，在文本中的复现率就越高；再次，搭配框架在语言的能产性上具有差别；最后，搭配框架之间相互交错，构成更大的语言表述单位。

Renouf & Sinclair（1991）开展的搭配框架研究，其意义在于证实搭配是语言中普遍存在的一种语言现象，不仅词汇词有搭配，语法词同样也具有搭配特征。搭配框架并不是孤立存在着的，它的作用是聚集一些语义或者功能相关的词，即搭配框架的搭配词，并且搭配框架对搭配词也具有高度的选择性，并不是像传统语法认为的那样，语言是一种空位－填充的自由选择。搭配框架本身以及与搭配词之间是一种共现关系，体现的是语言使用的短语倾向性，是习语原则操纵的结果。搭配框架为语料库短语学研究提供了一个重要视角。例如，Marco（2000）采用了搭配框架的视角研究了医学研究论文中的短语特点。在研究搭配框架和搭配词之间的关系时，Marco提出通过“类符／形符比”（type/token ratio）来计算“内部变异性”（internal variability），测量搭配框架对搭配词的选择程度。具体来说，当类符／形符比的值越小，内部变异性就越低，搭配框架对搭配词的选择程度就越高。另外，Marco（2000）还关注了搭配框架和体裁之间的关系。她发现在医学研究论文类体裁文本中，搭配框架呈现出与其他体裁文本不同的特点。例如，搭配框架the+？+of更多用于建构名物化（如the cloning of，the efficacy of），a+？+of更多用在定量和分类过程（如a proportion of，a history of），be+？+to选择的搭配词用于表达原因或者相似性等关系过程（如be related to，be similar to），或者某种情态（如be thought to）。最后，Marco还发现许多由搭配框架和搭配词构成的“三联体”（triplets）往往与其前后其他词共同构成更大的意义单位。另外，由于搭配框架有具体的语言形式，可以作为扩展意义单位中的核（Sinclair 2004a：39），即以搭配框架为起点，通过搭配、类联接、语义趋向、语义韵的途径，分析更大范围的意义单位。

2.3.5　型式语法

Hunston & Francis（2000）创建了型式语法（pattern grammar），其理论基础源自Sinclair提出的意义和型式的关联：①传统语言学研究主张词汇与句法分离，语法是第一位的，合乎语法性是判断小句是否可能存在的标准。只要合乎语法规则，至于是否有意义，是否会在语言交际中使用显得并不重要。依据合乎语法性这一规则，“扶手椅语言学家”（armchair linguists）使用内省式的方式，制造出诸如“colorless green ideas sleep furiously”之类的表达，虽然合乎语法规则，但并没有多大意义，或者说并不会在真实语言交际中使用。Sinclair将这类研究比喻成“用塑料花来研究植物学”。基于大量的语料库证据分析，Sinclair指出将词汇与语法隔离的做法是完全错误的。Sinclair（1991）提出语言使用的两个基本原则，即“开放选择性原则”（the open-choice principle）和“习语原则”（the idiom principle），并且指出语言使用更多依赖的是习语原则，语言使用具有明显的短语倾向性。Sinclair用大量的语言证据证明，在描写语言时是无法将句法从词汇中剥离出来的。事实上，语法规则总是与某种限制相关联，这种限制是一种选择性限制，指对语言使用中语法或者词汇选择的限制。②语料库短语学研究多数以词汇词为切入点，较少关注语法词，原因是根据传统语言学思想，语法词的意义已经泛化，用来研究意义单位似乎不太合适，也难以操作。而Renouf & Sinclair（1991）的“搭配框架”研究不仅证明语法词也具有明显的搭配特征，并且证明搭配框架对搭配词也有一定的选择限制性。例如，搭配框架“a/an+？+of”选择的搭配词具有如下几个语义特征：表量度或数量（如army、average、inch、ounce）；表事物的一部分（如edge、end、evening、hour、part）；表对某种属性的规格（如array、index）；表对of后名词的支撑（如act、example、expression、inkling、object）；表活动（如extension、explanation、invasion、upsurge）；表情况（如absence、awareness）；表关系（如enemy、officer）等（转引自Hunston & Francis 2000：26）。可能是受到搭配框架思想的影响，型式语法把研究视角置于对型式结构的描述。

搭配框架在研究方法上对型式语法也产生了影响。语料库方法最大的优势是可以对大量的语言数据进行批量处理，大大提高语言分析的效率。搭配框架很好地利用了语料库方法的这一优势，只需要进行相对简单的匹配和计算就能够获得高频搭配框架表。但是自动统计的方法会丢失一些有用信息，故Hunston & Francis（2000）提出在自动统计的基础上，需要增加定性分析的维度。另外，Hunston & Francis（2000）指出搭配框架研究只是涉及了一部分的短语特点，或者说只是从一个角度关注了语言中的某些短语特点，还有其他维度尚待开发。Renouf & Sinclair（1991）在评价搭配框架研究价值时，也表达了类似的观点：“我们提出简单的框架，其意图是让大家意识到，我们可以通过各种不同的但又非常合理的途径来展示语言使用中的型式，并给予解释”（转引自Hunston & Francis 2000：26）。

型式语法在理念上与Sinclair的思想既有相同，也有差别。相同点有两个：首先，句法和词汇互选，换言之，特定的句法结构倾向与特定的词项共现，反之亦然，词项也一定要存在于一定范围的句法结构中；其次，在语言交际中，先产生意义，意义则自然吸附混合了词汇和语法的短语形式，选择哪种表达形式则是个默认选项的过程。差别在于，Sinclair强调了可以通过型式之间的差异来区分词的不同意义，而型式语法则反过来，强调了型式选择了具有特定意义的词（Hunston & Francis 2000：29）。

那么，如何定义型式呢？Hunston & Francis（2000：37）把一个词的型式定义为与该词有规律地联系在一起的所有其他词和结构，并且这些词和结构共同决定该词的意义。型式的识别，必须满足以下三个条件：①型式以相对较高频数出现；②型式必须依附于某个特定的词项；③具有一个清晰的意义。从这个定义，我们可以看出，型式语法还是受到Sinclair思想的影响，认为词可以具有多个不同的型式，但是区别在于，Sinclair选择了以词为切入点，主张可以通过不同的型式来区分词的不同含义，而Hunston & Francis则选择了另外一个角度，以型式入手，认为一个型式可以与不同的词语关联，这也是型式语法的基本研究思路。在描写型式语法时，除了保留必要的具体词语之外，选择了“最简单、最表层的词性范畴”来描述型式中除词语之外其他成分。之所以这样处理，主要是因为：①如果对型式内部成分进行句法功能分配的话，会导致分析结果莫衷一是、不可靠。如在例句“She walked four miles”中，“four miles”可能被认定为宾语，抑或是修饰语成分。②如果采用句法功能来描述型式，则无法清晰展示型式的表层实现形式。例如，将动词explain的型式描写成“V+O+A”，对于学习者来讲，还是无法知道应该如何使用这个动词。另外，与搭配框架不同，型式的描写方式中没有“+”这个符号，取而代之的是空格。

在描写型式时，应该包括哪些成分？首先，Hunston & Francis（2000：49）将下列情况排除在型式描写范畴之外：①与某一类相同词性中绝大多数词都可以共现的成分，如关系从句的引导词that。②用于表示方式、地点或者时间等信息的介词或副词短语。其次，她们指出型式应该包括词和它的补足语成分（complementation），并且补足语成分可位于该词之前或者之后。在型式的呈现形式上保留了两个范畴，一个是必要的词语，一个是词性。在型式的种类上划分了动词型式、名词型式、形容词型式等。Hunston & Francis（2000）反复强调识别型式并不是件容易的工作，在具体分析时会产生分歧，“特别是在名词型式和形容词型式的识别工作中，如何决定哪些属于型式而哪些又不属于型式是极其困难的”（Hunston & Francis，2000：74）。另外，她们还指出不能只依靠共现频数来判断型式，因为在众多的共现项中，有些内容属于干扰项，并不依附于型式中的关键词。例如，在识别形容词available（关键词）的型式时，语料库词语索引显示，在该词右边位置上经常出现的介词有at、for、from、in、on、to等，但是我们不能简单地将available的型式描写成Adj prep.，因为由at、from和on构成的介词短语并不是形容词available的补足语成分，不依附于它。因此，Hunston & Francis（2000）指出，认真分析索引行对于识别型式来说是必要的。

关于型式语法，有以下几点有待进一步探讨。第一点，型式语法的研究思路和Sinclair短语研究的思路并不是完全一致的，这一点在前文中已多次提及。Sinclair的短语研究强调的是具体词语的特异行为，而型式语法则反其道而行之，以描写型式为出发点，强调了型式的意义，是型式选择了具有意义相似性的词项集。对于型式语法，Sinclair并没有做过多的评价，他仅指出“从理论上讲，型式语法的创设说明，当我们具体开发词语－语法（lexical-grammar）时，语法范畴与意义的区分紧密关联”（Sinclair et al ., 2004：xxvii）。可见，Sinclair对型式语法的做法基本上是认可的（Teubert，2007：227）。毕竟，Sinclair自己也在不断完善词语－语法的描写体系，而型式语法是到目前为止语料库语言学领域内出现的一个较为系统的词汇语法（lexico-grammar）描写体系。Sinclair之所以把型式语法定性为词汇语法，而不是词语语法（lexical grammar），是因为型式语法不仅没有质疑传统的语法与词汇割裂的合理性，并且坚持了语法优先的做法：“词汇语法本质上依然是一种语法，只是把词汇掺入其中而已”（Sinclair，2004b：277），“尽管词汇语法现在非常流行，但它没有把语法和词汇真正整合在一起，这与它的名称不相符，从本质上来讲，它只是在语法框架下给予词语型式一定的关注，并没有真正将语法与词汇同等对待”（Sinclair，2000：191）。从这个意义上讲，对于Sinclair来说，型式语法也并不是他理想中的描写词项的方式。

第二点，在型式语法的描写体系中，只保留了两个范畴，即具体的词语和词性。Hunston & Francis认为这种呈现方式最简洁，也最能反映语言的表层特征，如果增加句法功能的描写范畴，不仅不能保证型式描写的一致性，而且对于语言学习来讲也没有太大的价值。但Teubert（2007）却指出，型式语法只关注词性范畴是不够的，需要添加别的语法范畴来完善型式语法，并且建议可以借鉴配价语法来加强型式语法的解释力和实用性。对于型式语法而言，一旦句法功能介入，型式分析根本无法进行。但是，只进行词性描写存在的最大问题就是忽视了型式内成分之间的逻辑语义关系，由于依存关系不够明确，对同一个型式往往会产生不同的解读。如Teubert（2007）指出，名词hatred具有“N of N”的型式，被描写成一个中心名词（head noun）紧跟着由介词of引导的介词短语，但是对于型式“hatred of N（the French colonials）”的意义会有两种解读可能：“their hatred of the French colonials”（他们对于法国殖民地的仇恨）和“the hatred of the French colonies for the local population”（法国殖民者对当地居民的仇恨），原因是型式描述中只有词性，而忽视了成分之间的逻辑语义关系。也就是说，型式语法没有明晰名词hatred和位于介词of后的名词之间在逻辑语义上是动宾关系，还是主谓关系。从这点上来看，被Hunston & Francis认为是无效的（futile）的句法结构的分析恰恰能够解决型式语法中可能存在的歧义问题。另外，型式语法在实际分析中，特别是在成分的取舍过程中，依照的标准实际上仍然是句法功能，即是否属于关键词的必要补充成分，但在具体的型式呈现时，却丢掉了句法功能的范畴，这是型式语法相互矛盾的地方。

第三，型式语法除了提供一个新的语料库驱动的短语研究视角外，其理念和分析手段并无太大新意。Hunston & Francis（2000：27）也指出，型式语法研究可以说明，语料库驱动的英语语法研究必须是多维度的，可以从许多视角进行描述。实际上，构式语法（construction grammar）（Goldberg，1995）就主张结构本身具有意义，语言形式和意义是相互匹配的。构式的意义并不透明，没有办法从构式的组成成分，或者其他构式中解释或者预测出来。型式与构式并不一致，前者描写的实际上是词语的类联接，即词语与其前后出现的其他词语所属词性之间的共选，而后者表示一种具体的或者抽象的，并且能够与某种特定含义或者功能直接关联的语言表述方式（Stefanowitsch & Gries，2003：212）。尽管不同，但二者都强调结构与意义的关联。另外，从结构与意义的关系来看，构式较为完整，而型式不一定是完整的，有些是构成更大短语单位的一部分。关于型式的完整性，型式语法并没有予以具体说明。在分析型式与词语的关系时，型式语法采用的分析方法实际上就是Sinclair在分析扩展意义单位时的语义趋向，但Hunston & Francis也明确指出，不可能在纵聚合关系上穷尽满足条件的所有的词项，并且与型式语法不相符合的例子不可能完全避免，如在意义上相近的两个词却具有不同的型式。

最后，型式语法本质上讲还是一种普通语法（general grammar）。从型式语法的呈现方式上可以看出，型式提供的是一个个的空缺，可以由一些在意义上相关联的词来填充。如在“V n n”的型式中，可以有5类不同意义群的动词填充到动词的位置上。很显然，这不是一个具体的、局部的语法（local grammar），并不完全符合Sinclair的短语研究的思想，即以词语为核心来研究短语，毕竟短语是词语的语法结构。

2.3.6　搭配构式

Stefanowitsch & Gries（2003）提出搭配构式（collostruction）的概念，将搭配（collocation）和构式（construction）结合起来，强调了词语和语法结构之间的互动。Stefanowitsch & Gries（2003）针对搭配构式，提出一套运算分析方法，即搭配构式分析法（collostructional analysis）和由其演变而来的其他分析方法，用来计算构式与能够填充到该构式结构中某一个语法空位的词语之间的共现力，或者同一个构式中两个以上语法空位中可能出现的词语之间的共现力（Gries & Stefanowitsch，2004）。该研究思路与现代语料库语言学的语言观相吻合，即词语和语法无法分割的一元论。搭配构式一经提出，凭借其在操作层面上具有很强的应用性，迅速引起学界的关注（Wiechmann，2008；Hampe，2011；Gilquin，2011，2012，2015；詹宏伟、周颖洁，2012）。

Stefanowitsch & Gries（2003：215）对搭配构式的定义，涉及两个核心概念：共现词位（collexeme）和搭配结构体（collostruct）。共现词位指某个构式能够吸引的所有词位（lexeme），而搭配结构体由某个构式与某个特别词位联接而成。搭配构式将共现词位与搭配结构体结合起来。在继续讨论搭配构式之前，我们需要说明一些与之相关的理论基础。其中，型式语法（Hunston & Francis，2000）以及构式语法（Goldberg，1995）对搭配构式的产生具有直接影响。型式语法改变了传统语言研究截然区分词汇与语法的做法，认为两者无法绝对分开，相反是相互联结的。构式语法突出强调了语言形式和意义是相互匹配的。换言之，语法结构本身具有意义，但是该意义不是透明的，无法直接从构式的组成成分，或者其他构式中推演或者预测出来。这里蕴含着一种一元论的语言观，它是搭配构式研究的理论基础。但搭配构式又与这两种语法有所区别。型式语法中的语法结构实际上是一种类联接，也就是词项与其前后出现的其他词项所属词性之间的共选。而搭配构式中的语法结构是构式，即任何一种具体的或者抽象的，并且能够与某种特定含义或者功能直接关联的语言表述方式（Stefanowitsch & Gries，2003：212）。构式语法将词汇与构式关联，但需要解决一个关键性问题，即：什么样的词汇与什么样的构式共现？构式语法给出的答案是，当词汇与构式在意义上兼容，则该词可以与该构式共现，例如动词give可以出现在双及物构式（ditransitive construction）中，因为动词和构式共享一种意义，即“某人把某物转移给另外一个人”。很明显，这是一种定性分析，并且没有解释清楚如何去准确界定词汇和构式的意义。而搭配构式则避开对词汇和构式的意义界定，从某一个特定构式出发，调查分析构式的某个位置中所吸引或者排斥的词位（Stefanowitsch & Gries，2003：214）。搭配构式实际上是研究词汇与构式之间的共现，属于搭配研究的范畴，但又不同于传统的基于语料库的搭配研究。传统的搭配研究范式通常是，首先从语料库中提取数据，数据包括节点词与语境共现的词语索引，以及与节点词在特定跨距内的搭配词，然后在人工分析的基础上归纳出搭配模式，用来区分词语的意义。很明显，这种研究忽视了对语法结构的分析，并且过度依赖于具体词形和原始频数（Stefanowitsch & Gries，2003：214）。而搭配构式分析的目的就是要克服这些不足，不仅考查词项与词项之间的搭配，而且考查词项与语法结构之间的搭配。

Stefanowitsch & Gries（2003）给出了搭配构式分析的具体算法。假设一个已知词位L和一个已知构式C，如果要计算二者之间的搭配构式力（collostruction strength），需要知道四个相关的频数信息：①词位L在构式C中出现的频数；②词位L在其他构式中出现的频数；③包含了非词位L的构式C的频数；④包含了非词位L的其他构式的频数。然后进行Fisher精确测量（Fisher exact test）。这种测量方法无需分布假设（distributional assumption），故对语料库大小不做要求。Stefanowitsch & Gries（2003）使用这种方法分析了一些具体构式与构式中某个位置出现的词位之间的搭配构式力，如构式“X think nothing of V _gerund ”与在“V _gerund ”位置上出现的动词之间的搭配构式力。

Gries & Stefanowitsch（2004）采用同样的统计原理，提出“区分性共现词位分析法”（distinctive collexeme analysis），区分具有相近意义的构式，如双及物构式（John sent Mary the book）与带有介词to的与格构式（John sent the book to Mary）。该方法所需数据包括：①某个词位在构式A中的频数；②该词位在构式B中的频数；③不包含该词位的构式A的频数；④不包含该词位的构式B的频数，然后进行Fisher精确测量。Gries & Stefanowitsch（2004）使用这种方法区分了一些具有相近意义的构式，如动词的主动和被动构式、will和be going to将来时态构式等。Stefanowitsch & Gries（2005）又进一步扩展了搭配构式分析的范围，提出了“共变－同现词位分析”（covarying-collexeme analysis），用来发现同一个构式中两个不同位置中出现的词位之间的交互。分析结果显示，不同位置中出现的词位之间的共现不是随机的，而是受到一定的限制，这种限制是建立在意义衔接的基础上。“共变－同现词位分析”所需数据包括：①位置1中出现词位L的频数；②位置1中出现的非词位L的频数；③位置1出现词位L，同时位置2出现词位M的频数；④位置1不出现词位L，而位置2出现词位M的频数；⑤位置1出现词位L，而位置2不出现词位M的频数；⑥位置1和位置2均不出现词位L和M的频数。

这些计算方式一经提出便受到许多研究者的关注。其中，有研究者将这些计算方式应用到英语学习者语言分析中。Gilquin（2011）采用了“区分性共现词位分析法”调查了学习者英语中“使役构式”（periphrastic causative construction）的非限定动词空位对词语的吸引。研究分析了10种相似的使役构式，并把重点放在“X MAKE Y V _inf ”和“X MAKE Y V _pp ”这两个构式上。研究发现，学习者不像英语母语者那样能够准确使用使役构式，相反在非限定动词空位上使用了一些不地道的词语。Gilquin（2012）指出，英语母语者在“X MAKE Y V _inf ”构式的非限定动词空位上经常使用一些非意志性类动词（non-volitional verbs，如feel、seem、wonder等），在“X HAVE Y V _pp ”构式的非限定动词空位上则经常使用一些表达服务用途的动词（frame of service verbs，如build、repair、cut等），而学习者却缺乏这方面的知识。詹宏伟和周颖洁（2012）采用“搭配构式分析法”研究学习者语料库中的双宾构式。研究发现了与双宾构式搭配力最强的动词，在形式与意义上与双宾构式相关最为密切，同时也发现了学习者与英语母语者的异同，相同点在于两个群体都高频使用双宾动词give和tell，不同点在于母语者会使用如owe、promise、guarantee、accord、allocate、spare、drop等双宾动词，而学习者语料中则没有发现类似的用法。

从上述文献中我们可以看出，搭配构式研究与基于语料库的搭配研究在理论上和应用上既有相似之处，也有许多不同。基于语料库的搭配研究解决了词与词之间共现力的问题，但却忽视了对语法结构的考虑，也就是说，搭配研究没有解决词与词之间是通过何种结构连接起来的问题。搭配构式研究将词与语法结构联系起来，不仅看词与词之间如何共现，而且看词与语法结构如何共现。从这个意义上讲，搭配构式实现了词汇与语法的统一。另外，搭配构式的运算方法更加准确，而且不受语料库大小的限制，但是需要进行多次统计，并需要对语料库进行词性附码以及人工识别构式。

搭配构式研究通常会聚焦典型的构式，如“N waiting to happen”“X MAKE Y V _inf ”等，这样做的目的是方便在语料库中快速精确地识别出相应的构式。搭配构式研究的理论框架还是认知构式理论，因为研究的出发点是构式，而不是词语，并且认为构式的意义是给定的。但是，对于Sinclair来讲，结构是词语的结构，语料库语言学框架下研究语言的短语特征，出发点应该是词，由词延伸出去，观察它与结构之间的搭配力。这里的结构应该能够体现该词的区域性语法特征（local grammar）。但无论是型式语法中的型式，还是构式语法中的构式，所呈现的实际上是普通语法，因为这些结构描述了“空位与填充”（slot-and-filler）的关系，词的作用是用来填充结构中的空位，同一空位下的可供选择的词呈纵聚合关系（paradigmatic relation），虽然这种选择并不是随意的，而且具有一定限制性。我们如果接受Sinclair的观点，从词出发，分析它与结构之间的搭配关系，首先需要解决的问题就是选择什么样的结构。我们发现，配价型式实际上是一种词汇的、区域性的语法，因为它揭示了词的支配能力，阐释词及其包含的补足语成分是如何共同形成更大的语言单位。因此，我们的研究选择的结构是词的配价结构，但在计算词与配价结构的搭配关系时可以借鉴搭配构式的一些算法。

2.3.7　语义序列

Hunston（2008）提出语义序列（semantic sequence）的概念，用来描写文本中呈现的某种规律性特征。所谓语义序列，指复现的词或者短语，这些语言单位由于形式多变，不适宜做形式序列的描述，将其描写成语义元素序列更具价值。那么，语义序列的表现形式是什么呢？又如何在语料库中找到语义序列呢？为了说明这些问题，Hunston（2008）列举了语义序列的三个不同实现方式：以词汇词或短语开始的语义序列；以型式开始的语义序列；以语法词开始的语义序列。在以词汇词或短语开始的语义序列中，Hunston（2008）选取了短语make sure，在线性的维度上分析与该短语共现的补语成分。以make sure为搜索单位，结果显示其左1的位置上多数情况下出现小品词to，而跟在该短语后的经常是that从句。因此，这两个成分可以写进make sure的语义序列。在分析make sure紧跟的词或短语后发现，尽管这些词语或者短语在具体含义和词性上存在着差异，但是经过意义概括，可以归纳出如下几个类别：表示意愿，如want、try、go out of one’s way、do everything one can等；表示义务、必须、重要等意思，如have to、got to、job、duty、it’s important to、in order to等；表示可能、达成等意思，如way、time等；表示其他意思，如just、them、go等。因此，以make sure为核的语义序列可以写成，“可能+to make sure+that从句”“意愿+to make sure+that从句”等。Hunston（2008：277）给出了语义序列分析的具体步骤：首先选择一个词汇性短语为切入点，其次观察它的补充成分，然后分析补充成分的意义并且进行分类，至于其中经常出现的语法词，通常直接写进语义序列。但是Hunston（2008）也明确表示，以词汇词或短语为切入点的语义序列分析最大的问题是，选择词汇词或短语时存在着较大的主观性和任意性。

为解决这一问题，Hunston（2008）提出以型式为切入点来描写语义序列，其方法与以词汇词或短语为切入点的语义序列描写方法类似，主要是分析型式的补充语成分，并对其进行意义概括和分类。不同之处在于，型式内部结构中的某些空位上允许出现不同的词，词的变化会引起语义序列的变化。如型式“N that”，其中N的位置上可以出现的词有the discovery、the suggestion、the observation等。其中，语义序列“the discovery that”表示的意思是“发现导致或者优先于某事”，语义序列“the suggestion that”表示的意思是“建议引起某种反应”，语义序列“the observation that”表示的意思是“观察与其他数据或者由此观察引发的其他理论相协调”。除了discovery、suggestion和observation之外，在N的位置上还有许多其他的名词，如idea、notion、view、impression，等等。通过研究这些短语结构，能够发现该型式具有的语义序列类型及其表达的语篇功能（Hunston，2008：282）。

Hunston（2008）还介绍了Gledhill（2000）、Charles（2004）以及Groom（2007）以语法词为切入点的语义序列研究。这些研究除了都选择了语法词作为研究切入点之外，使用的语料库也都属于特殊性语料库。如Groom（2007）调查了两类人文学科的语料库，即文学批评类和历史学科类。选择语法词做为切入点的思路，我们认为是受到了Sinclair观点的影响。Sinclair（2004a）曾指出，对于小型语料库而言，研究者可以将研究重点放在语法词上，因为即使是在小型语料库中，语法词的出现频数也相当高，足以表现出典型的短语学特征，而且Sinclair通过实证研究也证明了语法词具有典型的短语学特征，并且和意义表述关系密切。Gledhill、Charles和Groom通过各自的研究也的确发现，在特殊语料库中，语法词是最好的研究语义序列的切入点，借助由语法词为核心构成的语义序列，能够了解到特殊语料库中文本的主要内容。研究语法词语义序列的通常做法是，首先找到与通用语料库相比，在特殊语料库中比较频繁出现的语法词，然后找到语法词经常出现的短语结构，归纳出意义规律特征。如介词beyond的语义序列之一是“物体＋表示移动、接受、定位、存在的动词+beyond+传统性范围”（entity+movement/perception/location/existence+beyond+conventional domain），表示的意义是“某一个被观察的事物超过了传统的界限”。另外，在不同的语料库中，语法词的语义序列是有差别的，这种差别能够反映出语料所属领域的特点。如在Groom（2007，转引自Hunston，2008：287）的研究中，型式“both N and N”在历史类和文学类语料中都出现，但是在文学类语料中，这个序列连接的通常是两个意义相反的词，而在历史类语料中，连接的是意义比较接近的词，并且前者多为与文学作者或者文本相关的词，而后者多数是有关社会的或者政治的词。

那么，语义序列是否有别于其他的用来描写语言中短语特征的概念？Hunston（2008）给出的回答是肯定的，并且指出语义序列具有理论基础。她区分了语义序列与其他一些描写语言中短语特征的概念，但同时也承认它们之间有着相似之处，有时候甚至会发生重叠。如，她指出语义序列与Sinclair的“意义单位”的最大差别在于：首先，语义序列虽然出现频率很高，但并不是某一个具体词的典型短语结构；其次，在同一个语义序列下的具体实例在形式上富于变化，并且不一定有共享的词，但意义单位的核心部分一定是某个具体的词语或者短语。在区分语义序列与“词束”时，她指出尽管有一些语义序列呈现出复现的n-元结构，但是语义序列中的变化程度要远比词束大。在区分语义序列与“词汇启动”（lexical priming）（Hoey，2005）时，她指出语义序列是观察语言数据的结果，而词汇启动则是对观察的解释，可以用词汇启动来解释语义序列是如何形成的。在谈到语义序列与构式语法时，她首先把构式语法与型式语法做比较，指出尽管二者的研究视角不同，型式语法视语言为一种社会现象，而构式语法把语言看成一种认知现象，但是二者之间却有着惊人的相似之处，甚至称型式语法是构式语法的一个次范畴，然后她指出语义序列并不属于构式，因为语义序列强调的是语义的相似性以及形式的多样性。

在我们看来，对语义序列的界定并不是特别的泾渭分明，与其他描写语言短语特性的概念的确存在着诸多相似之处。在分析语义序列时，用到了搭配、语义趋向、语义韵，并且语义序列也并非是一个完整的意义单位。语义序列不关注某个具体词的序列（以某个特点语法词为切入点的语义序列除外），强调的是不同短语形式在意义上的相似性，这实际上是对型式语法的一种补充。型式语法归纳了具有相似意义的短语之间共有的型式，并且主张具有相同型式的词共享某一种意义。语义序列突显了短语在意义上的相似性，尽管这些短语在形式上不一定要共享某一种型式。由此可见，语义序列和型式语法在研究思路上是一致的，一脉相承的。

2.3.8　词汇启动

Michael Hoey曾经和John Sinclair一起在英国伯明翰大学从事语料库语言学研究。因此，他们有着许多共同的研究课题，如对搭配的研究，不同的是他们采用了不一样的视角。Sinclair认为搭配是语言文本的特征，而Hoey则提出搭配属于心理语言现象，把搭配定义为“词之间的一种心理联系”（Hoey，2005：5），强调从心理学的角度来解释搭配的普遍性，并在此基础上提出了词汇启动（lexical priming）的概念。

在Hoey（2005：8）看来，启动是词语自身的属性。人们通过语言使用来习得一个词，并且随着使用次数的增加，与该词共现的大小语境也逐渐被人所熟知。同样，由这些词构成的词的序列也是一样，本身也承载了丰富的语境信息。人们在习得这些语言单位的同时也掌握了它们的语境信息。人们在日常语言交际中，会不自觉地再现这些业已程序化的言语行为，这就是启动的作用。换言之，Hoey所主张的启动的概念，实际上是假设了语言使用者对曾经使用的每一个词都会产生心理检索，该检索富含了各种社会的、物质的、话语的、类属的、人际的语境信息。这一心理检索是可被处理和获得的，属于人类知识储备的一部分。

词汇启动可以用来解释搭配现象，但又不局限于搭配，否则，“词汇启动也不会是什么特别有趣的语言特征，而且由于不解释语言的创造性而缺失或者没有理论价值”（Hoey，2005：16）。为了进一步说明词汇启动具有理论意义，并且能够用来解释语言的创造性，Hoey引入了其他一些概念，明晰了词汇启动与意义、语法以及词汇关联之间的关系。第一个概念是语义联想（semantic association）。Hoey（2005：24）给出的定义是：“当一个词或者词的序列在语言使用者的大脑中与一个语义集发生联系时，便产生了语义联想，并且语义集中有些词与关键词形成搭配关系。”例如，对于大多数操英语的人来说，hour（小时）这个单词很可能被启动与表示“数量”（NUMBER）或者“履行”（JOURNEY）的语义联想发生关联，形成如下搭配，如half-hour drive、four-hour flight、two-hour trip，等等。因此，Hoey（2005：17）假设当我们构想出要想说的话时，是启动帮助我们找到具体要用的词语。他区分了搭配和语义关联，称前者只是说明了语言的常规性，而后者则解释了语言为什么具有创造性。实际上，在语料库语言学的框架下探讨短语单位时，已经关注了形式与意义之间的关联，并且提出了一些重要的关于语义的概念，以语义趋向（semantic preference）和语义韵（semantic prosody）最具影响。那么，Hoey为什么不采用已有的概念，而选择创造一个新的概念呢？用Hoey（2005：22）自己的话说，虽然语义联想这个术语是他给出的，但这个概念却来自于语义趋向和语义韵。Hoey没有使用语义韵主要是因为语义韵被广泛定义为搭配词对关键词在意义上进行“染色”，从而整个语境内弥漫了某种语义氛围，或消极，或积极，而这些观点受到了质疑（如Whitsitt，2005；Hunston，2007）。Hoey（2005：24）承认语义联想与语义趋向之间可以互换，但不选择使用语义趋向是因为启动的主要特点是它会在语言使用者中产生一种心理上的优选，有别于语义趋向所强调的词汇意义本身。

第二个概念是类联接。这个术语源自Firth（1957），Sinclair和Hunston等发展了这个概念，但Hoey（2005）赋予了类联接不一样的含义。Firth（1957：13）是这么解释类联接的：“语法层面上的意义指的是一种词性、句型或者其他类似范畴之间的联系，这被称为类联接。这种语法关系（类联接）不能够被看成词与词之间的关系，如在I watched him这个句子中，类联接不是单词watched和I之间的关系，而是指一个人称代词、单数第一人称主格、及物动词过去时以及单数第三人称名词或者形容词形式。”其中，词性范畴被Hunston & Francis（2000）在型式语法中沿用。Sinclair（2004a）在他的扩展意义单位中也使用了类联接，但也只局限于词性这一个语法范畴。“这里所观察到的型式（即扩展意义单位模型中的语法结构）不是完整意义上的类联接，因为它只是搭配与词性这一语法范畴之间的共现。尽管如此，用它来概括说明语言中的变化却是非常实用的”（Sinclair，2004a：33）。按照Sinclair（2004a：142）的说法，类联接之所以局限于词性，是因为受到了当前横组合关系上描写手段的局限，在聚合关系上，类联接才是一种相互关系。Hoey（2005：43）对类联接的界定与Sinclair和Hunston的不同，包括如下三层含义：①词或者词的序列自身或者在更高层面上所持有的或者排斥的语法伙伴；②词或者词的序列所在语言单位选择的或者排斥的语法功能；③词或者词的序列选择或者排斥的所在语言序列中的位置。这个定义具有两个明显的特征：首先，类联接包含的语法层面更为广泛，不仅有词性、还有语法功能，甚至有位置；其次，类联接有积极和消极之分，所谓积极指词或者词的序列具有的语法特征，而消极则指词或者词的序列不可能出现的语法特征。Hoey（2005：42）坦言他对类联接的界定更接近于Halliday的观点。

根据Hoey（2005）的“启动假设理论”（priming hypotheses），在实际话语中，每一个词都会受到启动与如下范畴共现：搭配词、语义联想、语用联想（pragmatic associations）、类联接即语法功能（grammatical functions）、语法范畴（grammatical categories）即语法角色（grammatical roles）、文本搭配（textual collocations）、文本语义联系（textual semantic associations）、文本类联接（textual colligations），并且强调，这些共现范畴会受到语域（domain）或者文类（genre）的限制。

2.4　结语

Sinclair（2008b：407）指出：“自从将语法与词汇的共选理论引入短语的核心概念之后，那种建构在既定理论体系上的描述途径在处理短语时就显得捉襟见肘了。”短语学研究并不是新兴研究课题，但语料库语言学视角下的短语学也绝非是旧调新弹。语料库的兴起不仅将短语学研究重新拉回我们的研究视野，更重要的是它赋予了短语研究新的生命和意义。短语，作为描述语言意义单位的主要途径，正在逐渐改变着我们对语言本质的认识。

第二章 语料库短语学研究概述

2.1 引言

2.2 短语学研究的三个派别

2.2.1 经典的俄罗斯理论

2.2.2 人类学派

2.2.3 语料库语言学视角

2.3 语料库视角下的短语研究

2.3.1 扩展意义单位和意义移变单位

2.3.2 同现词列

2.3.3 词束

2.3.4 搭配框架

2.3.5 型式语法

2.3.6 搭配构式

2.3.7 语义序列

2.3.8 词汇启动

2.4 结语