一些学者将论文被引频次的预测视为分类问题,采用机器学习算法对论文被引频次所属类别进行预测,属于粗粒度的引文预测研究。例如Fu和Aliferis
采用SVM对生物医学领域论文10年被引进行二分类预测,分别依据被引频次是否大于20、50、100或500,将其被引分为正类和负类,不同分类的AUC值介于0.85到0.92之间。Ibanez等
[1]
将论文被引分为少(最多1次)、一些(被引为2~4次)、许多(被引大于4次)三类,采用朴素贝叶斯、逻辑回归、决策树、KNN等机器学习方法对1~4年的被引进行预测,结果表明朴素贝叶斯分类方法的准确率最高。Wang等
将219篇天文学和天体物理学领域的论文根据被引平均分成高、中、低三组,采用多个决策树算法投票的方式进行预测,获得了较高的分类准确性。Wang等
采用BP神经网络模型预测ESI高被引论文,得到了较高的预测准确性。除了上述类别定义之外,一些学者根据论文对作者
h
指数的贡献程度进行分类,例如Dong等
[2]
将被引超过作者
h
指数的论文设为正类,反之设为负类,采用逻辑回归、随机森林、决策树(bagged decision trees)等分类算法对论文进行分类,研究发现内容特征对预测的贡献最大,其次是期刊特征。
论文被引频次的分类预测研究简化了引文预测任务,将论文依据其影响力分为两类或多类,操作上较为简洁且往往分类准确度较高,在识别高被引论文等特殊任务上能够满足需求。然而,这种粗粒度的分类方式有以下两点不足:一方面,对于被引类别的分类尚没有一个科学标准,比如部分研究分为高、中、低三类,另一些研究分为高、低两类,这使得不同研究间难以比较,限制了引文分类预测的应用;另一方面,分类结果是对被引数据的简化处理,难以对隐藏在被引频次背后的规律、内涵和应用进行更深入的研究。
引文预测的另一研究路线是将其视为回归问题,即直接预测论文被引的数值。线性回归模型是其中较为常用的方法,例如Lokker等
选取参考文献数等17个文献相关特征及3个期刊相关特征对临床(clinical)领域论文的2年被引进行预测,在训练集上的
R
2
为0.60,测试集上的
R
2
为0.56;Yu等
根据回归系数大小判断特征的重要程度,由高至低依次为论文前2年的被引、参考文献数量、期刊5年影响因子、初次被引时间的倒数、作者数量和第一作者的被引总数;Bornmann等
利用论文前1~30年的被引百分位数对其第31年的被引百分位数进行预测,通过
R
2
变化情况发现前两年的论文被引及JIF是相对重要的特征;Abramo等
仅采用前几年的被引频次与JIF两个特征预测论文10年被引,发现利用前2年的被引预测论文长期被引准确率已经较高,随着引文时间窗的延长,JIF的作用逐渐下降,直至几乎可以忽略。由于引文数据的偏态分布、非负整数性,以及方差大于均值的分布特征
,负二项回归模型成为引文预测的另一个常用模型,例如Onodera和Yoshikane
对心理学等6个学科6年和11年的被引频次进行拟合,
R
2
在0.23~0.54,发现Price指数(论文被引前5年内的参考文献数量所占比例)是最重要的影响因素,另外,参考文献数量对被引也有重要影响。
与线性回归模型不同,BP神经网络对数据的分布没有严格的要求,其预测结果通常较为稳健。此外,浅层机器学习模型(如SVM和LR)的性能取决于特征工程的质量。然而,对于人类专家来说,设计有用的特性并不容易。相比之下,深度神经网络在特征学习方面具有优势,即可以将初始的“底层”特征表示通过多层非线性变换自动转换为“高级”特征。理论上,一个全连通前馈神经网络能够以任意精度逼近所有的连续函数
。同时,多项研究证实了BP神经网络在预测方面的优势。例如,Wong和Chan
发现BP神经网络的性能明显优于线性回归和SVR模型。Lee和Choeh
以及Wong等
也发现BP神经网络模型的预测性能优于线性回归模型。
除上述模型外,一些机器学习算法也被用于解决回归性质的引文预测问题。例如,Bai等
通过GBDT(Gradient Boosting Decision Trees)算法,利用多种特征开展了论文被引的预测研究。Chakraborty等
使用SVR模型预测论文的5年被引,模型预测的
R
2
为0.71,MSE达4.08。Li等
同样采用SVR算法预测论文10年、11年和12年的总被引,论文采用了两种预测途径,一种是直接预测被引,另一种是先对被引模式进行分类然后再进行被引的预测,实验结果表明采用多种特征组合直接预测的
R
2
在0.67~0.68之间,后者的
R
2
在不同被引模式上的表现差异较大。Yan等采用线性回归、KNN算法、SVR模型、GRP(Gaussian Process Regression)模型等分别对论文1年、5年和10年被引进行预测,实验结果表明非线性算法(SVR、GRP等)的表现优于线性模型,GRP模型在5年被引预测上的
R
2
高达0.869。Robson和Mousquès
采用随机森林模型预测环境建模(environmental modelling)领域论文的被引频次,所选特征仅能预测被引的较小部分(小于30%)。
此外,Wang等
基于优先偏好(preferential attachment)、老化(aging)和适合度(fitness)三个基本特征提出了动态被引频次预测模型。该模型准确地预测了某篇论文未来的引用量,其性能优于logistic等基线模型。Abrishami和Aliakbary
将其视为一个“序列到序列”的问题,采用RNN模型并利用前几年的被引频次“序列”预测后几年的被引“序列”。Xu等
利用文献异构网络特征及卷积神经网络(Convolutional Neural Network,CNN)模型预测单篇论文的10年被引,研究发现与基线模型相比,他们提出的模型预测精度提高了5%。
[1] IBANEZ A, LARRANAGA P, BIELZA C.Predicting citation count of Bioinformatics papers within four years of publication[J].Bioinformatics, 2009, 25(24): 3303-3309.doi: 10.1093/bioinformatics/btp585.
[2] DONG Y X, JOHNSON R A, CHAWLA N V.Will this paper increase your h -index? [C].//Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, 2015, PartⅢ: 259-263.doi: 10.1007/978-3-319-23461-8_26.