施引者引用意向与文献计量视角的学术论文被引影响因素研究最新章节_谢娟著

2.2 被引的预测研究

2.2.1 分类问题

一些学者将论文被引频次的预测视为分类问题，采用机器学习算法对论文被引频次所属类别进行预测，属于粗粒度的引文预测研究。例如Fu和Aliferis 采用SVM对生物医学领域论文10年被引进行二分类预测，分别依据被引频次是否大于20、50、100或500，将其被引分为正类和负类，不同分类的AUC值介于0.85到0.92之间。Ibanez等 ^[1] 将论文被引分为少（最多1次）、一些（被引为2~4次）、许多（被引大于4次）三类，采用朴素贝叶斯、逻辑回归、决策树、KNN等机器学习方法对1~4年的被引进行预测，结果表明朴素贝叶斯分类方法的准确率最高。Wang等将219篇天文学和天体物理学领域的论文根据被引平均分成高、中、低三组，采用多个决策树算法投票的方式进行预测，获得了较高的分类准确性。Wang等采用BP神经网络模型预测ESI高被引论文，得到了较高的预测准确性。除了上述类别定义之外，一些学者根据论文对作者 h 指数的贡献程度进行分类，例如Dong等 ^[2] 将被引超过作者 h 指数的论文设为正类，反之设为负类，采用逻辑回归、随机森林、决策树（bagged decision trees）等分类算法对论文进行分类，研究发现内容特征对预测的贡献最大，其次是期刊特征。

论文被引频次的分类预测研究简化了引文预测任务，将论文依据其影响力分为两类或多类，操作上较为简洁且往往分类准确度较高，在识别高被引论文等特殊任务上能够满足需求。然而，这种粗粒度的分类方式有以下两点不足：一方面，对于被引类别的分类尚没有一个科学标准，比如部分研究分为高、中、低三类，另一些研究分为高、低两类，这使得不同研究间难以比较，限制了引文分类预测的应用；另一方面，分类结果是对被引数据的简化处理，难以对隐藏在被引频次背后的规律、内涵和应用进行更深入的研究。

2.2.2 回归问题

引文预测的另一研究路线是将其视为回归问题，即直接预测论文被引的数值。线性回归模型是其中较为常用的方法，例如Lokker等选取参考文献数等17个文献相关特征及3个期刊相关特征对临床（clinical）领域论文的2年被引进行预测，在训练集上的 R ² 为0.60，测试集上的 R ² 为0.56；Yu等根据回归系数大小判断特征的重要程度，由高至低依次为论文前2年的被引、参考文献数量、期刊5年影响因子、初次被引时间的倒数、作者数量和第一作者的被引总数；Bornmann等利用论文前1~30年的被引百分位数对其第31年的被引百分位数进行预测，通过 R ² 变化情况发现前两年的论文被引及JIF是相对重要的特征；Abramo等仅采用前几年的被引频次与JIF两个特征预测论文10年被引，发现利用前2年的被引预测论文长期被引准确率已经较高，随着引文时间窗的延长，JIF的作用逐渐下降，直至几乎可以忽略。由于引文数据的偏态分布、非负整数性，以及方差大于均值的分布特征，负二项回归模型成为引文预测的另一个常用模型，例如Onodera和Yoshikane 对心理学等6个学科6年和11年的被引频次进行拟合， R ² 在0.23~0.54，发现Price指数（论文被引前5年内的参考文献数量所占比例）是最重要的影响因素，另外，参考文献数量对被引也有重要影响。

与线性回归模型不同，BP神经网络对数据的分布没有严格的要求，其预测结果通常较为稳健。此外，浅层机器学习模型（如SVM和LR）的性能取决于特征工程的质量。然而，对于人类专家来说，设计有用的特性并不容易。相比之下，深度神经网络在特征学习方面具有优势，即可以将初始的“底层”特征表示通过多层非线性变换自动转换为“高级”特征。理论上，一个全连通前馈神经网络能够以任意精度逼近所有的连续函数。同时，多项研究证实了BP神经网络在预测方面的优势。例如，Wong和Chan 发现BP神经网络的性能明显优于线性回归和SVR模型。Lee和Choeh 以及Wong等也发现BP神经网络模型的预测性能优于线性回归模型。

除上述模型外，一些机器学习算法也被用于解决回归性质的引文预测问题。例如，Bai等通过GBDT（Gradient Boosting Decision Trees）算法，利用多种特征开展了论文被引的预测研究。Chakraborty等使用SVR模型预测论文的5年被引，模型预测的 R ² 为0.71，MSE达4.08。Li等同样采用SVR算法预测论文10年、11年和12年的总被引，论文采用了两种预测途径，一种是直接预测被引，另一种是先对被引模式进行分类然后再进行被引的预测，实验结果表明采用多种特征组合直接预测的 R ² 在0.67~0.68之间，后者的 R ² 在不同被引模式上的表现差异较大。Yan等采用线性回归、KNN算法、SVR模型、GRP（Gaussian Process Regression）模型等分别对论文1年、5年和10年被引进行预测，实验结果表明非线性算法（SVR、GRP等）的表现优于线性模型，GRP模型在5年被引预测上的 R ² 高达0.869。Robson和Mousquès 采用随机森林模型预测环境建模（environmental modelling）领域论文的被引频次，所选特征仅能预测被引的较小部分（小于30%）。

此外，Wang等基于优先偏好（preferential attachment）、老化（aging）和适合度（fitness）三个基本特征提出了动态被引频次预测模型。该模型准确地预测了某篇论文未来的引用量，其性能优于logistic等基线模型。Abrishami和Aliakbary 将其视为一个“序列到序列”的问题，采用RNN模型并利用前几年的被引频次“序列”预测后几年的被引“序列”。Xu等利用文献异构网络特征及卷积神经网络（Convolutional Neural Network，CNN）模型预测单篇论文的10年被引，研究发现与基线模型相比，他们提出的模型预测精度提高了5%。

[1] IBANEZ A, LARRANAGA P, BIELZA C.Predicting citation count of Bioinformatics papers within four years of publication[J].Bioinformatics, 2009, 25(24): 3303-3309.doi: 10.1093/bioinformatics/btp585.

[2] DONG Y X, JOHNSON R A, CHAWLA N V.Will this paper increase your h -index? [C].//Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases, 2015, PartⅢ: 259-263.doi: 10.1007/978-3-319-23461-8_26.