面向学科领域的网络信息资源深度聚合与服务研究最新章节_孙建军著

4 学科网络资源采集与预处理

4.1 信息资源采集

学科网络资源的深度聚合与开发，最基本的前提是能够在互联网海量的信息当中有效发现那些对研究人员具有价值的学术信息资源。当前的学科网络资源具有资源量大、资源来源分散、形式多样、可信任程度不同等特点，研究人员从这些复杂多样的学科资源中找出有用的资源十分困难。目前主流的方法是通过网络爬虫程序自动采集。

4.1.1 信息资源采集策略

信息资源采集指通过借助各类采集技术与方法实现从不同渠道获取相关信息的过程；该过程以满足信息使用者的应用需要为目标，是信息资源深度聚合与服务的基础。学科网络信息资源通常有两类获取渠道。一类是各类专业化的数据库，比如中国知网、万方、Web of Science（WoS）、Scopus等文献数据库，以及Derwent、Espacenet（欧洲专利局专利文献检索数据库）、USPTO（美国专利局授权专利数据库）、PatentsView等专利数据库。相关信息资源在此类数据库中已经得到较好的序化与关联，使用者仅需通过数据库所提供的数据采集接口进行获取即可。另一类信息获取渠道则是各种学术相关的网站，例如，特定学科或领域的信息集成网站、学术论坛、学术社交媒体等。由于信息资源在此类网站中相对分散，并且相关平台大多无法提供信息采集通道，因此信息使用者需根据个性化的信息需求设计相应的采集程序或运用合适的采集工具获取所需信息。

从信息采集方案顶层设计的角度来看，国内外常用的网络信息采集策略涵盖选择性采集、全面采集、专题采集、联合采集以及融合上述策略的混合式采集策略。全面采集策略即在采集过程中不进行信息筛选，直接获取目标页面内所有的信息内容，该类策略能够获取最为全面的信息，但所需花费的时间与内存较大。与之相反，选择性采集策略则是根据使用者的信息需求对采集页面中的内容进行筛选，从而有选择性地获取相关信息。该策略需要对采集页面进行详细解析，以发掘与信息需求相匹配的内容，并且由于采集过程中实际上摒弃了其他非相关信息，为此，该策略要求使用者对信息需求进行详尽的设计，防止信息遗漏。联合采集策略本质上是一种动态采集策略，该策略通过对使用者预先选择的网页内容进行定期采集，实现对相关信息的持续性跟踪与获取。联合采集策略常与专题采集策略配合使用，专题采集策略的核心是根据使用者的需求对特定主题的相关信息进行采集，其目标是尽可能全面地获取相应主题下所有的信息，两类采集策略的结合能够较大程度满足用户的持续性信息需求。混合式采集策略则是根据具体应用场景所采取的一种综合性信息采集策略，该方法实现了对多种类型信息采集策略的融合。

从信息采集技术实施层面来看，通用信息采集策略主要包括广度优先策略和深度优先策略。广度优先策略认为，与目标信息具有较短链接距离的内容与之具有更高的主题相关程度，为此在采集过程中只有完成了当前层级页面的采集，才会进行下一层级内容的搜索；运用该策略能够在短时间内快速覆盖并获取大量网页资源，但采集任务的增加以及随之而增多的信息过滤需求，将较大程度拉低算法效率。深度优先策略的基本思想是沿着一个起始链接向前逐层采集，直至没有下层链接为止，而后转入下一个起始链接；该策略能够采集到所有关联信息并且能够较大程度地节省内存，但全路径便利的设计使得算法效率随采集深度的增大而降低。上述两类策略均能基本满足网络信息资源的采集需求，但由于通用信息采集策略较少关注其所采集的信息内容，在具体的应用中需要进一步使用具有针对性的采集策略。为此，大量学者引入统计学、机器学习和数据挖掘等技术，并提出了主题采集策略、增量式采集策略和深层网络采集策略，实现对通用信息采集策略的改进。

学科网站信息资源的采集在具体研究情景中本质上是面向特定主题的搜索，因此大多研究运用主题搜索策略或聚焦采集策略采集所需信息。1999年，Chakrabarti首次提出聚焦采集的概念；而后引起国内外学者的深入研究，并发展出各类高效的主题采集策略。主题采集策略通过解析网页内容提取主题相关性较高的链接作为采集对象，进而在短时间内获取与使用者信息需求相匹配的内容。目前主题采集策略主要包括三类：

①基于内容评价的采集策略。该策略主要通过分析网页自身内容、链接锚文本内容与主题的相关性，指导信息采集过程。尽管此类策略能够获取到最为相关的信息内容，但忽略了链接结构对采集效率的影响。

②基于链接结构评价的采集策略。该策略主要借助网页的结构化信息，通过对链接网络结构进行解析，识别重要程度较高的链接作为候选采集对象。然而，由于此类策略更多关注链接的影响力，较少涉及待采集内容与用户需求的主题相关性，因此在采集过程中可能会出现“主题漂移”现象。

③基于内容和链接结构评价的采集策略。由于上述两类策略均存在一定的局限性，部分学者提出基于内容和链接结构评价的采集策略，即同时考虑待采集信息与主题需求的相关性以及其在链接网络中的重要程度，从而弥补单一策略的不足。

除了上述策略外，不重复采集策略、优先采集策略和网页重访策略也可根据具体的研究问题被应用于优化采集结果。

4.1.2 信息资源采集技术与方法

国内外学者及相关网络服务平台开发并设计了一系列信息资源采集技术与方法，以适应不断拓展的学科网络信息资源获取渠道，以及研究者多样化的信息采集需求。当前，各类科学与专利文献数据库均为用户提供了有偿或无偿的下载服务，并且随着学术开放获取（scholarly open access）的逐步推广，用户不仅能够获取文献的题录信息，还有可能对完整科学文献内容进行采集，以服务其细粒度文本内容与结构分析需求。此外，大数据研究的兴起也促使相关服务平台不断拓展数据服务能力，开始为用户提供海量数据下载的API接口，使用户可以通过简单的接口调用实现数据的批量获取。例如，Scopus所提供的API接口可以让用户在非商业用途下免费获取该数据库中几乎所有学术期刊的引文与摘要数据。针对各类专业数据库所提供的信息资源，不少研究人员还构建了可免费使用的跨平台信息资源关联数据集。例如，Marx和Fuegi将专利的USPTO编号与其引用文献的唯一标识符（包括DOI、Microsoft Academic Graph编号以及PubMed编号）进行关联，为科学与技术互动研究提供了便捷的公开数据集。

除了传统的数据库平台外，一些学术研究相关网站也为用户提供了便利的学科网络信息资源获取服务，例如，Altmetric.com为用户提供了学术文献及其他科研成果在主流媒体、社交网络、公共政策等信息渠道中讨论与使用频次的统计，成为传统基于引文的指标以及各类定性数据的补充；用户通过界面下载操作或API接口调用即可获取所需数据，进而为科研成果跨社群传播规律发掘、科研成果社交媒体影响力测度以及对比传统计量指标与替代计量指标差异的研究提供数据支持。推特、Facebook等社交媒体也为用户提供了有限的数据获取接口，一定程度上能够为社交媒体相关研究提供可靠且便捷的数据支持。

专业数据库、学术研究相关网站以及公开数据集均能够为科研人员提供便捷的信息获取途径，但是面向用户个性化的信息需求，设计、开发并使用具有针对性的信息采集算法与工具仍然是学科网络信息资源采集的主要路径。一些学者主要借助Octoparse、LocoySpider和Gooseeker等网页爬虫工具进行学科网络信息资源采集，此类工具大多采用可视化采集界面，在明确采集目标及参数设定规则后能够以较低的学习成本实现信息采集，对于没有编程基础的用户而言相对友好，但由于受到工具自身功能的限制，使用此类工具进行信息资源采集的自由度较低，难以完全实现个性化定制。为此，大部分学者还是以通用型爬虫框架（如Scrapy、PySpider、Crawley、Beautiful Soup等）为基础，通过设计适用于各自研究场景的采集方法获取相关数据。

正如上节所述，学科网络信息资源采集通常是面向特定主题的搜索任务，为此学者们所提出的各类主题采集算法也能用于此类信息资源的采集。基于内容评价的传统主题采集方法包括Fish Search 和Shark Search ，它们分别采用二值模型和向量空间模型评估主题相关性，进而识别与链接锚文本关联程度较高的网页。在Shark Search的基础上，Cho等提出了Best-first算法，该方法通过设定相关性阈值获得局部范围内的最优解。然而上述采集算法均是基于字词统计开展主题相关性判定，即它们难以对同、近义词进行准确识别，为此研究提出基于语义的采集算法，该方法可细分为：基于叙词表的采集方法和基于本体的采集方法。前者主要根据学科或领域的检索词典将同、近义词转换为相同的表达，实现对传统算法局限性的优化；后者则是利用特定领域内存在的实体及其关联生成语义向量，并根据语义向量测度信息需求与待采集内容的主题相关性。此类方法能在一定程度上弥补字词统计方法的局限性，但构建叙词表与本体均需要大量精力，且难以做到同一算法的跨主题迁移，促使研究人员提出基于智能计算的信息采集方法。相关研究通过使用遗传算法、关键词分类算法等，进一步促进了面向内容评价的主题采集方法的发展。

基于链接结构评价的主题采集方法中最具代表性的是Page Rank算法和HITS算法。 Page Rank算法以数量假设与质量假设为基础，通过不断迭代以测度链接的Page Rank得分，进而估计其在链接网络中的重要性，该方法被广泛用于网页重要性或质量评价，并作为基础算法被大量学者加以改进。但Page Rank算法忽略了采集需求与抓取内容间的主题相关性，为此Kleinberg提出了HITS算法，该方法的核心是通过Authority Scores和Hub Scores判定网页的重要性得分，Authority Scores越高表示网页所提供的信息与主题越相关，Hub Scores越高则代表该网页能够指向更多Authority Scores较高的页面。与HITS算法的改进思路类似，后续针对基于链接结构评价的主题采集方法优化的研究，也均是集中于探索如何提升链接相关性的判定方法。

除了上述研究外，综合内容评价和链接结构评价的主题采集方法同样受到大量学者的关注，他们整合现有单一采集方法或引入新的概率模型、图表示模型等，以期最大程度提升信息采集的准确率与相关性。