施引者引用意向与文献计量视角的学术论文被引影响因素研究最新章节_谢娟著

1.3 研究思路和方法

1.3.1 基本思路

研究内容1 学术论文被引影响因素的系统整理

（1）基本思路

充分调研、搜集现有的学术论文被引影响因素实证研究文献，利用元综合等方法从中发掘出所有可能的被引影响因素，从而获得作为本研究基础的被引影响因素集。

（2）文献搜集

①直接检索。借鉴并修正Tahamtan等的检索式，在CNKI、万方、WoS、Springer、Wiley Online Library、PubMed、Scopus等中外文学术数据库和搜索引擎中进行文献检索，搜集文献；通过题名、文摘甚或全文阅读获得候选文献集。②引文法。以直接检索搜集到的文献和本课题组已经积累的文献为基础，采用滚雪球法搜集相关文献。Tahamtan等的综述采用检索式结合阅读的方法完成文献甄别，该方法的缺点是会漏掉检索式中没有涵盖的检索词。因此，本书辅之以文献引用网络的滚雪球法完善文献搜集。③浏览。通过本学科核心期刊目录的浏览以获得相关的研究文献。④非正式网络。通过同学、同事和会议等途径搜集相关的研究文献。研究中将迭代使用上述四种文献搜集方法。

（3）元综合

本研究将扎根于学术论文被引影响因素的实证研究文献中，翔实地解析出文中明示和蕴含的各种被引影响因素。

研究内容2 学术论文被引影响因素的meta分析

本部分采用meta分析方法完成。

（1）通过上述四种文献搜集方式全面获取涉及论文长度、下载量和科研合作等因素与被引相关关系的文献。

（2）根据相应的研究主题及效应量，制定纳入排除标准，对文献进行严格筛选。

（3）针对研究主题及原始研究提供的数据，制定数据编码表，提取作者、样本发表时间、样本来源学科、样本来源期刊、引用时间窗（citation windows）、相关系数及类型、显著性水平等数据，以及待研究的论文特征指标。

（4）对效应量进行数学转换，采用Stata 12.0软件的metan命令进行效应量的合并，得到综合效应值、标准误及置信区间。

（5）进行异质性检验。判断效应量的合并是否有意义；对发表偏倚进行检验，排除因无统计学意义的结果难以发表而造成综合效应不准确的现象。

（6）通过meta回归方法找到可能调节论文长度、下载量、科研合作等与被引之间相关关系的因素；将meta分析样本按照上述调节变量进行分组，对每一个亚组的效应量进行meta合并，得到各组的综合效应值。

（7）将综合效应值转换为论文长度、下载量、科研合作等论文特征指标与被引频次的相关系数，阐释上述指标对学术论文被引的影响。

研究内容3 论文特征与被引相关关系的深度发掘

通过研究内容1、2可以归纳出现有研究中论文、作者和期刊特征的被引影响因素，不过仍有少部分论文深层特征尚未受到学界的有效关注。

（1）特征发掘

在科学问题日益复杂化和知识生产模式转变的双重驱动下，越来越多的科学家认为跨学科研究是实现突破和创新的催化剂，强调将各学科知识的渗透和融合作为解决现实社会复杂问题的重要手段。跨学科的重要作用及其在各领域的快速发展，使其成为科学计量学领域的关注点，并推动学者展开对跨学科与学术影响力的关系研究。但通过对现有研究的梳理可发现，各项研究存在指标选择多样、分析单元多样、研究领域多样及未考虑论文被引影响因素等问题。

（2）计算相关性

为了对跨学科性与被引间关系有更深入的认识，有必要从作者、主题、参考文献和施引文献的角度，探究跨学科性与被引间的相关性。其中，作者跨学科性从论著的学科特征判定，主题跨学科性从论文主题的学科属性测度，参考文献与施引文献跨学科性则利用参考文献和施引文献的多样性测度。进而通过相关分析，计算跨学科性与被引频次间的相关关系。

研究内容4 施引特征与引用的相关关系研究

（1）选定数据集

图书情报学领域期刊较其他学科领域更注重作者信息的著录，因此作者特征更易于获得。本研究选择CSSCI中图书情报领域的18种期刊2005—2015年间的所有全文数据共55 720篇。

（2）抽样

根据样本量公式：

其中 P 为样本差异程度，本研究取最大值0.5； e 为误差，取0.05；当调查结果置信区间为95%时， Z 值为1.96； N 为样本总量55 720，则共抽样382篇论文即可代表总体。而在商业市场调研中，对于大样本（>50 000），通常抽取其中1%~1.5%，即认定结果有效。据此，综合这两项依据，本研究最终随机抽样600篇全文。

（3）特征编码

从论文原文中抽取施引者及参考文献特征，并通过网页信息检索完善施引者和参考文献特征。其中施引者特征主要包括论文作者特征（施引者数量、是否有跨地域合作、是否有跨学科合作）、作者基本特征（性别、年龄）、作者工作特征（省份、单位、职业、职称）、作者学历特征（学历、学科、毕业院校、毕业时间）、作者学术特征（学术生涯起始时间、学术生产力、被引频次、 h 指数）。参考文献特征主要包括整体特征（参考文献数量、参考文献各类型占比、参考文献国际化占比、自引占比）、期刊特征（影响因子、期刊分区）、量化特征（参考文献期刊影响因子总和、平均值，参考文献期刊分区总和、平均值等）。

（4）数据清洗与量化

清洗掉一些不符合要求的论文，如编辑部发布的活动通知等。根据数据量化标准对论文的特征编码进行量化，该过程分为两步。一是同化，即将具有类似水平的不同称谓进行同化，如研究员=教授等。二是按照规则对各特征进行量化，如定义施引者毕业院校：专科学历=1，普通本科=2，211院校=3，985院校=4，等等。最终得到施引者特征向量矩阵与参考文献特征向量矩阵。

（5）多因素分析

以施引者特征向量为基础，与参考文献特征向量矩阵中逐列组成新的向量矩阵，进行多因素分析。

研究内容5 基于施引者引用意向视角的被引影响因素研究

本部分采用结构方程模型方法完成研究工作。由于被引影响因素主要是形成性指标，反映性指标甚少，因此后继研究中采用更适合于形成性指标的基于偏最小二乘法（PLS）的结构方程模型。

（1）潜变量提炼，建立单因子测量模型

①量表初稿——扎根理论研究

本研究基于对科研人员的深度访谈语料开展扎根理论研究，对科研人员在选择引用文献时采用的判据和影响引用的因素进行编码。通过三级编码，逐步提炼出构念，并以访谈语料中的初级代码和文献计量指标共同形成各构念量表的初稿。

信息含量。被引影响因素中的主题多样性表明，论文涉及的主题越多，则其信息含量越丰富，同理，标题长度、标题类型、摘要长度、关键词数、不同的文献类型、公式数量、图表数量、附录、致谢、脚注数量、参考文献数量和论文长度等因素也都清晰地指向了信息含量，据此，以这些因素测度潜变量信息含量。

影响力。作者 h 指数越高通常意味着作者的学术声誉越高，同理，作者声望、作者媒体热度、机构排名、机构声望、机构媒体热度、期刊影响因子、期刊声望、期刊媒体热度、会议级别、会议声望和会议媒体热度都与“影响力”有直接的关联，据此，提炼出构念“影响力”。

采用类似的解读方法，本研究还初步提取了可读性、可靠性、新颖性、全面性、可获取性、学术质量和引用意向等构念。

②量表形成

汇总上面工作的结果，形成本研究量表的初稿，分发给多位文献计量领域学有所成的学者，在综合专家意见的基础上，完成量表修订；然后再分发给样本超过100人的科研人员（包括教师、博士生和硕士生）进行预调查，完成项目分析和探索性因子分析，通过反馈完成量表的进一步精化。

（2）建构研究模型

潜变量之间的关系通过三种途径形成：一是基于经典理论或正式文件，二是从文献计量的结果中获得启发，三是源于对科研人员访谈的扎根理论研究。

①源于经典文献或正式文件。就“论著质量”而言，研究者详细阅读了 Nature 、 Science 、 British Medical Journal 等著名期刊的审稿指南，以及《国家科学技术奖励条例实施细则》有关评审范围和标准的文本，提炼出了原创性、新颖性、实用性和可信度等四个具体指标，同时根据Walters 对论著质量的评估，将信息容量和可读性纳入论著质量的评估。双路径模型揭示了个体认知和行为决策的过程，可从中心路径和边缘路径两个方面发掘学术用户在引用论文的过程中受到哪些因素的影响，常见的双路径模型主要有系统-启发式模型（systematic-heuristic model）、精细加工可能性模型（elaboration likelihood model）及信息采纳模型（information adoption model）。

②源于文献计量结果。丰富的文献计量研究成果为研究模型的构建提供了较为可靠的研究假设，比如，多项研究表明论文质量与引用频次呈正相关关系，从而可以提出假设：论著质量对引用意向存在显著的正向影响，其他构念间的关系通过类似的方法形成。

③扎根理论研究结果。本研究对科研人员进行深度访谈，从他们的回答中可以提取出可能的研究假设。比如，如科研人员认为研究方法严谨规范的论文具有较高的质量，从中可以提取出规范性、学术质量及引用意向之间的假设路径。

（3）实证研究

本研究问卷的发放对象是至少发表过一篇学术论文的研究生和专家学者。实证研究中的共同方法偏差、测量模型检验和研究假设检验等将按照PLS-SEM的推荐方法完成。

1.3.2 研究方法

（1）文献调研法。用于文献梳理、研究方法借鉴、研究路线制定、理论解释模型构建、研究假设的提出、问卷编制与调查对象的选定等。

（2）问卷调查法。针对结构变量和观测变量所对应的指标，设计结构化的调查问卷，通过向用户发放调查问卷，收集研究数据。

（3）专家咨询法。协助问卷的设计与修改、研究模型的修订与精化、参与研究结论的讨论与分析。

（4）统计分析方法。使用SPSS进行样本数据的描述性统计分析、相关分析、回归分析、主成分分析、信度检验、效度检验、探索性因子分析和单因素方差分析等；使用Smart PLS 3.0进行测量模型和结构模型分析，综合运用各种统计方法，获得模型的解释力和假设检验。

（5）meta分析法。选取同主题被引影响因素结论不一致的研究，采用meta分析法消解研究间的差异，以得到明确的研究结论。

（6）扎根分析法。通过开放编码获取科研人员访谈语料中明示和隐含的判据与被引影响因素，通过主轴编码完成判据的分类，借助于选择性编码为后继的建模提供依据。