(1)布拉德福定律的发现
布拉德福(S.C.Bradford)之所以能够发现信息的集中离散分布规律,从客观背景来说主要有三个条件:首先,文献资源的分散现象客观普遍存在;其次,学科交叉与关联现象的存在,即科学统一性原则;最后,文献统计研究为布拉德福定律的提出奠定基础。为了摸清这些文献现象,布拉德福开始采用定量分析方法对文献体系进行了深入的探究。
布拉德福(S.C.Bradford)选择了“应用地球物理学”和“润滑”专业领域为样本,收集科技期刊上发表的相关论文,共统计490种期刊、1727篇论文,并将期刊按照相关论文载文量的多少降序排列,采用区域分析、图像观察和数学推导三种方法进行分析研究得出相应的结论。
区域分析:按照年平均载文量的多少,把上述两个学科的期刊分为三个区:一是四篇以上的期刊,作为核心区;二是多于一篇而少于或等于四篇的期刊,作为期刊的相关区;三是一篇或不足一篇的期刊,作为期刊的外围区。
图像观察:以横轴表示期刊累计数的对数、纵轴表示相关论文累积数,描绘两个学科的相关论文分布曲线。
数学推导:对经验数据及公式作数学推导。
(2)布拉德福定律的发展
如果将科技期刊按其刊载某学科论文数量的多少,以递减顺序排列,可以将期刊分为该学科领域的核心区、相关区和外围区。各区具有相同数量的文章,此时核心区、相关区、外围区的期刊数量比是1∶ n ∶ n 2 。在布拉德福定律提出来后,也有很多学者对布拉德福定律进行了进一步研究和修正。
①维克利对布氏定律的推论。
英国情报学家维克利(B.C.Vickery)经过研究对布拉德福定律提出了修正,该定律不仅仅局限于划分为三个区,而同样适用于三个区以上的情形,即与选取区域无关;但是分区不同,比例系数就要发生相应的变化,推论如下:
式中, n 1 -k ( k =2,3,…, m )是第1区到第 k 区的期刊累计数量; m 是划分的区域数; V 是分散系数(或称为维氏系数)。
②布鲁克斯对布氏定律的描述。
英国情报学家布鲁克斯(B.C.Brookes)发现,布拉德福最初描述科学论文分布定律时,虽然具有明确的思想,但未能使用数学公式表达。布鲁克斯创造性地提出了布拉德福定律的数学表达式形式:
式中, R ( n )是对应于 n 的相关论文累积数, n 是期刊等级排列的序号(级); α 是第一级期刊中相关论文数 R (1),也就是载文率最高的期刊中相关文章数; C 是核心区的期刊数,即曲线进入光滑直线部分的交点的 n 值; N 是等级排列的期刊总数; β 是参数,与核心区的期刊数量有关,大小等于分布图中曲线部分的曲率; k 是参数,等于分散曲线中直线部分的斜率,可用实验方法求得,当 N 足够大时, k = N ; s 是参数,其数值等于图形直线部分反向延伸与横轴交点的 n 值。
布拉德福定律揭示了文献分布的集中与离散规律。究其原因,文献的集中分布现象与“成功产生成功的原则”(The Success-Breeds-Success Principle)即马太效应密切相关,载文量越大的期刊往往会吸引越多的文章,形成“堆加效应”。文献的分散现象则是由于科学知识具有统一性,每一个学科都或多或少,或远或近地与其他任何一个学科相关联。因此,某学科的文献也可能出现在其他学科的期刊上。
(3)布拉德福定律的应用
布拉德福定律被广泛应用在实践中:第一,用于筛选核心期刊,针对特定的学科,可以使用区域法或图像法对期刊进行划分,从而筛选学科的核心期刊;第二,用于文献检索,利用布拉德福定律的数学式,可以对完全检索 n 种期刊所能得到的论文总数进行预估,也可以进行文献检索效率评估;第三,确定核心的出版社,通过统计分析各大出版社关于某一学科或专业的专著出版情况,从而掌握其专著的基本分布,确定某一个学科的“核心出版社”;第四,动态馆藏的维护,通过不断统计期刊流通的最小核心和连续区,预测未来一年的流通要求,从而指导采购,同时通过布拉德福定律找到经常被利用的核心期刊,为精准收藏提供服务;第五,检索工具完整性的测定,利用布拉德福定律的等级排列法和数学法,通过实际统计数据与理论值进行比较来评价某一特定学科的检索工具的完整性;第六,进行学科幅度的比较,对不同的学科的期刊论文数量进行分析,能得到大小不同的核心区和 s 值,学科的差别就得以体现;第七,指导读者利用期刊,用“核心期刊”这种量的概念来指导读者;第八,指导期刊的订购工作,用“核心期刊”为期刊选定提供证据,这对制定合理的经费分配方案具有指导意义。
在网络环境下,布拉德福定律也有用武之地。早在20世纪90年代初期,就有学者根据信息的电子化趋势,提出将传统的布拉德福定律等文献计量学方法应用到电子信息计量学中。对于网络版期刊来说,布拉德福定律同样适用。有研究表明,期刊网络下载频次在一定程度上能反映该期刊对于该专业的贡献大小和学术地位,并且在期刊中的分布具有明显的布拉德福分布特征。这一规律同时适用于网页链接度的分布,通过对在线学术网站中的网页数量分析,发现网站的网页分布与布拉德福分布近似,但也存在些许不同,如网络信息资源的集度更大,马太效应也更为突出。这说明布拉德福定律在网络环境下呈现出新的特征,因此,在运用布拉德福定律时要充分考虑统计对象的特点。
(1)洛特卡定律的内容
20世纪初以来,全球范围内的科技文献增长态势迅猛,文摘杂志也如雨后春笋般不断涌现。文摘杂志的出现推动了出版行业的规范化发展,各种索引的兴起和发展又提高了学者对文献规律研究的热忱。在科技期刊和文献数量与日俱增的同时,作为科学研究主体的科研人员的数量在20世纪也开始大幅度增加,但是囿于个人科研能力和客观条件,不同科研人员的科研成果数量迥异,论文作者分布规律的探讨得到了研究者的关注。1926年,洛特卡(A.J.Lotka)发表了一篇题名为“科学生产率的频率分布”的论文,引入了“科学生产率”的概念。“科学生产率”是指科学家在科学上所表现出来的能力和工作效率,通常用生产的科学文献进行衡量。通过这一概念的引入来测量科研人员撰写科学文献的能力,即“洛特卡定律”。洛特卡选取了化学和物理两个领域文献载体中的数据:在化学方面,他选择了美国化学学会化学文摘社(CAS)编辑出版的《化学文摘》(CA);在物理方面,他对《物理学史一览表》进行了统计,其中收录了截至20世纪初的物理学领域的1325名科学家及其论著。通过对数据进行归纳,他最终得出洛特卡定律。
洛特卡推论认为:“检验发现,生产2篇文章的作者大约是生产一篇文献作者数的1/4,生产3篇文章的作者大概是生产一篇文章作者的1/9,写 n 篇文章的作者数是生产一篇文章作者数的1/ n 2 ;且生产一篇文章的作者数是全体作者的60%左右。”洛特卡表达式如下:
式中, C 是特定领域的特征常数; f ( x )是撰写 x 篇论文的作者数占作者总数的比例。
洛特卡定律提出后,也有很多学者做了更深入的研究。1985年,科学家帕欧通过对涉及各领域的48组数据的研究,得出 n 属于(1.2,3.5)的结论,根据这一定律可以推导出洛特卡定律的倒幂形式,得出广义洛特卡定律,公式为
式中, x 是论文量; f ( x )是写 x 篇论文的作者占作者总数的比例; C , n 是参数。
(2)洛特卡定律的发展
当今科学交流与合作日益频繁,科学研究越来越交叉化、高深化,而科研合作最显著的表现形式之一就是论文合作,以此提高科学劳动效率。洛特卡定律作为文献学中作者分布定律之一,在最早的研究中对合作者现象的研究比较少,洛特卡定律适用于文献多为单独撰写的作者。普莱斯曾利用每位作者合作数量的分布来研究合作问题,他发现论文数量与每篇论文的平均作者数之间存在着显著的关系,依据普莱斯的思想,可得到方程:
式中, x 是作者的平均合作论文数(与基本理论的区别); C , n 是参数。
(3)洛特卡定律的应用
洛特卡定律的应用可以概括为五个方向。第一,情报学和图书馆学方面。洛特卡定律可用于预测发表不同数量论文的作者数量以及特定学科的文献总量,可用作评价指标评估文献的增长态势,帮助更科学地管理文献。第二,预测科学方面。基于统计或估算的作者数量,结合洛特卡定律预测文献数量和文献流动方向,帮助揭示文献交流规律;再者,从文献计量视角出发,洛特卡定律也可以用于预测科学发展的规模和趋势。第三,科学学和人才学方面。以科学家为研究对象,洛特卡定律可用于探究科学家的著述特征,从而为整个科学学和人才学研究提供支撑。第四,反映科技劳动成果方面。在科学研究领域内,科学论文的发表数量是评价科学家绩效的重要指标之一,洛特卡定律可以帮助考察某一个学科内的科研人员在一定时期内发表文献的数量及趋势,进而辅助科技成果评价。第五,掌握科学论文的作者队伍方面。通过对科学论文作者结构的统计和计量分析,可以更好地了解科学活动的特征,总结科学活动的发展规律,预测科学发展的趋势,进而科学分配、组织科研团队,促进科技创新。
洛特卡定律同样适用于网络环境下的信息计量学研究,但是要有严格的限定条件,对统计数据的全面性具有较高要求。G.Tolosa等 收集了15万个阿根廷域名网站的近1000万个网页的网络特征数据,包括页面内容、链接结构、所使用的技术等,研究发现,网页PageRank值的分布、网络中的强关联成分大小、页面大小都符合洛特卡定律。
(1)最省力法则
齐普夫(G.K.Zipf)发现,日常生活中每个人都受一个简单的基本法则的制约,即千方百计地选择一条最省力的途径,这个普遍存在的法则就是“最省力法则”,在生活中十分常见。例如,当我们试图与别人交流时,一方面希望想法能够尽可能被别人理解,另一方面希望表达尽量简短,这一对方向相反的力,即所谓的“单一化的力”和“多样化的力”就是“最省力法则”的体现。词汇是表达和载荷信息的基本单元,词汇的选择、使用及出现频次影响着信息的分布。两种作用力的平衡,使自然语言词汇的频次分布呈现双曲线,这就是最省力法则与词频分布的定律。
(2)齐普夫定律的内容
齐普夫在“最省力法则”思想的指导下,在以往研究的基础上又收集了大量统计资料,并进行了系统的分析,他发现任何一篇文章中,词的出现频率都服从如下规律。
如果把一篇较长文章(约5000字以上)中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,…,频次最低的词等级为 D 。那么等级值和频次值的乘积是常数,即
式中, F r 是该词在文章中出现的频次; r 是该词的等级序号。
令 N 为文章所包含的词汇总数(词容量), f r 为第 r 级的相对频率,则有
式中, c 是常量,且 c = C / N ; r 是该词的等级序号。
(3)齐普夫定律的发展
在齐普夫提出齐普夫定律后,也有更多的学者进行了研究,并对齐普夫定律做了修正。
①朱斯的双参数公式。
美国语言学家朱斯对齐普夫的单参数词频分布律提出了修正,他认为,齐普夫定律中 r 的负指数应该是一个参数,而不是一个常数。则有如下公式:
式中, b >0, C >0,对于 r =1,…, n ,参数 b 、 C 要使 P r =1。
②芒代尔布罗的三参数频率分布定律。
美籍法国数学家芒代尔布罗运用信息论原理和概率论方法来研究词的频率分布定律,他通过严格地数学推导从理论上提出了三参数频率分布定律:
式中,0≤ a <1, b >0, C >0;对于 r =1,…, n ,参数 a 、 b 、 C 要使 =1。
a 、 b 、 C 三个参数含义如下:
参数 C 与出现频率最高的词的概率大小有关。
参数 b 与高频率词的数量的多少有关,对于 r <50的高频率词, b 是 r 的非减函数,随着 r 的增大,参数 b 并不减小。
参数 a 与词的数量 n 有关,由于 a 的选择自由较大,因而公式的灵活性很大,更能在各种条件下适合测定的数据。
(4)齐普夫定律的应用
中国数学家和语言学家周海中曾经指出,齐普夫定律虽然是经验定律,但在描述词频分布规律上十分强大。当然,齐普夫定律也有其一定的适用条件,对中频词的分布情况刻画较为准确,但对高频词的分布描述偏差较大。研究词频分布对编制词表、制定标引规则、进行词汇分析与控制、分析作者著述特征等具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此齐普夫定律在文献标引和词表编制中应用广泛。齐普夫定律在情报检索和科学评价中也有相关应用。在科学评价中,关键词以精炼的语言反映了科研成果的精髓,可有效展现学科领域的研究主题和发展动向。利用齐普夫定律,基于网络环境所进行的大规模的词频统计分析,能够提高研究结果的可信度。
齐普夫定律在网络信息计量学中同样适用。例如,齐普夫定律还可以应用于论坛发帖者与发帖数量的关系分析。有研究表明,论坛发帖数量和发帖者数量、发帖数量和发帖者在论坛的等级之间的关系分别服从幂律分布和指数分布。有学者选取一个月内某网站收到的页面请求进行分析,发现网页点击率和网页的链接率都符合齐普夫定律,并认为可以通过齐普夫曲线分析网站的受欢迎程度 。还有学者发现,二重齐普夫模型可用于挖掘网页访问量与目标网址数量之间的关系,来表述网页的受欢迎程度。与此同时,也有学者提出,齐普夫定律的语言基础是英语,并且随后的研究也往往限于印欧语系,因此这种词频分布规律在中文环境下的适用性还有待确定 。