学科资源语义聚合基于挖掘概念、词语间的语义关联,分析资源间内在语义关系,以支撑知识组织、推荐服务。整体而言,在理论层面,近几年相关文献的研究主题较为丰富。例如:(1)模型的建构,代表性的研究包括基于网格的聚合模型 ,面向多特征的联合概率关联聚合模型 ,利用文本中的句法结构、语义关联和上下文特征检测文档的主题等;(2)基于语义理论的模型,典型的包括用于资源推荐的模糊语言模型 、基于映射的数字内容保护模型 等。国内的研究更多聚焦于资源的语义化、基于共现和耦合关系以及知识网络的语义挖掘等,典型的研究包括馆藏资源语义化理论体系 ,如从图书情报学及哲学视角推进的数字资源聚合理论与思想,数字资源聚合的方法体系以及基于资源组织的维度、层度和阶度等视角构建的数字资源组织的柔性理论体系和数字资源柔性组织理论的应用模型等 。
在方法层面,技术和工具一直是相关研究的焦点,例如通过研究语义网的支持信息对神经科学研究人员的价值及其在生物医学领域的应用 、通过标签聚类实现标签云技术 、基于连接本体作为语义信息载体的需求扩展方法 、基于语义传播模型构建的多类对象标签方法 。此外,还有研究对各类软件进行了分析,比如,网络的文献资源与知识管理软件RODIN 、可挖掘网络中隐藏资源的软件系统News-Reaper 、资源聚合的系统SERSE 以及基于网络的虚拟计算机聚合平台IVCE 等。在应用层面,学科资源聚合的研究涉及自然科学、人文社科、艺术等,涵盖了计算机、社交、语言、数字图书馆等领域,研究主题从生物医学、行为数据的统计与整合,到新媒体环境中用户行为数据的统计与管理、跨语言平台上人口行为特征分析以及数字和图像识别等。
整体看来,学科资源聚合研究面向应用。例如,应用聚合解决数字图书馆中文本异构问题 ,研究学科资源聚合的个性化推荐问题,探究数字图书馆个性化服务模式 、数字图书馆资源聚合和服务推荐关系、基于关联语义链的服务推荐方法以及基于谱聚类的服务推荐方法等 。此外,部分研究聚焦于资源聚合的可视化,包括资源分布的可视化、检索过程的可视化、检索结果的可视化以及可视化效果评价等。 例如,采用社会网络可视化与知识计量方法,从知识的单元挖掘、域开发、网络构建、图谱呈现以及可视化应用等维度,构建数字图书馆资源知识聚合的DLRs-KA可视化模型 。在应用层面,综合贺德方与赵蓉英等 学者的研究,面向数字馆藏资源的主要语义聚合方式如下:基于领域本体、基于文献计量、基于概念关联以及基于关联数据。
作为哲学的一个分支,本体论(Ontology)是一门有关存在及其本质和规律的科学。在近二三十年里,本体论被计算机、图书情报以及教育学等学科广泛用于知识表示、共享及复用等方面。早在1991年,Neches就提出“本体定义了组成主题领域的词汇表的基本术语及其关系,以及结合这些术语和关系以定义词汇表外延的规则”。后经学界的共同探索,Gruber提出的定义是“本体是概念模型明确的规范说明” 。这已经成为人工智能等众多学科领域所公认的本体定义。
鉴于本体能够清晰刻画概念及其关联,并且具有规范的层次结构与推理逻辑,将其应用于学科资源聚合能够有效补充传统聚合方法在语义层面处理能力的欠缺,其具体优势包括:(1)保留关键词间的语义关联,不仅能够提升用户需求表达的准确性,还增强了查询等服务的效用,使学科资源整合工具更加人性化;(2)基于本体能实现语义的查询扩展,提供用户与其搜寻内容语义的关联信息;(3)本体通过公理和属性描述概念间的逻辑关系和规则,提供了对推理的支持,可实现一定程度的智能化学科资源整合。据此,在学科资源整合研究中,本体已用于表现学科知识的统一认知、提高服务内容的适用性 。
尽管领域本体理论上能够有效提升学科资源聚合能力,但其自动构建难度较大,使得大部分研究成果聚焦于本体的半自动构建。例如,鉴于资源孤岛和超载等困境,何超等 提出了结合本体的馆藏数字资源聚合路径,搭建了融合资源采集、资源描述、语义聚合与资源服务的资源聚合模型。肖希明等 构建公共数字文化资源顶层本体,将资源组织提高至语义层面。毕强等 综合聚类分析、语义相似度计算、协同过滤推荐算法等方法,提出基于领域本体的数字文献资源聚合及服务推荐方法,并论证该方法对聚合数字文献资源、挖掘用户需求信息以及实现个性化推荐的有效性。马翠嫦等 探索了网络学术文档细粒度聚合本体构建的理论与方法,提出了细粒度聚合本体包括网络文档、聚合单元、学科领域、任务情景等基本概念的构想,并构建了细粒度本体概念体系聚合框架。此外,学者还进行了综合关联数据和本体的语义聚合研究。
鉴于领域本体获取难度较大,学者从可操作性层面提出了多种语义聚合方法,基于文献计量的资源聚合即为其一。文献计量的分析对象不仅涉及文献内容特征(如关键词、主题词等),也涉及文献外部特征(如作者、机构、地区等),为此通过文献计量能开展一定的资源语义关联挖掘,完成较浅的资源语义聚合。
现今,馆藏资源聚合研究采用文献计量取得了较丰硕的成果。其中,共现与耦合关联是文献计量中研究成果较丰富的,同时其在馆藏资源聚合研究中也得到了广泛的探索与应用。例如,邱均平等 指出学科中显性知识涵盖在文献间,但是学者可反映隐性知识,所以发展了基于共现关联的四层知识深度聚合模型,深度聚合各层次知识。赵蓉英等 , 分别采用共词分析和耦合分析进行语义聚合,以挖掘馆藏资源之间的隐性关联。此外,其他学者还结合两种关联探究馆藏资源聚合。具体而言,邱均平等 整合共现关系与耦合关系,提出包括特征、利用过程、知识与用户需求等在内的四维关联的聚合模型。另外,还提出基于引文网络实现资源聚合 。董克等 将科学文献资源及其特征项之间的关系划分为发生型、共现型和语义型三种关联网络,其中发生型表示资源的存在状态,共现型表示基于共词、合作、共被引、耦合等特征项间的共现关系,语义型则是语义网的体现,作者提出了综合应用多种知识关联网络和有效计量即可实现资源聚合的观点,且语义关联网络还可以使得聚合深入内容层面。
文献计量大多以外部特征(如作者、科研机构等)为分析对象,而内部特征则更为注重关键词间的共现关系,以助推语义聚合。 然而文献中关键词具有局限性,很难完整表征文献中全部内容特征,并且共现程度仅能在一定程度上展现关联关系,且其准确性存在争议。因此,不少学者提出了对共现关系的提升举措。具体而言,唐晓波等 结合共词分析和领域本体,基于本体中关键词位置实现关键词中语义相似度的计算,并将它与词对间的共现频次进行加权,获取最终的关联强度。李纲等 运用主题图完成词对中相似度的测度,强调更深层次的语义聚合有必要拓展到文献全文以发掘全面的内容特征。
作为文本语义特征表征的基本单元,词语可实现文献资源语义内容的呈现。文献资源中的词语不仅可以通过人工标引的关键词获取,还能直接从文献中提取,并基于词语间语义关联分析完成深层次的文献资源语义聚合,后者便为基于概念关联的资源语义聚合。基于概念关联的资源聚合方法的关键是对概念间关系的挖掘,目前主要包括两类方法:其一是以文献为背景直接获取概念及其关联;其二是引入分类词表、领域本体等外部知识库,以获取相关概念及其关系。然而,由于文献资源的长文本属性增大了概念降维的难度,进而导致直接提取概念及其关联可行性降低,而第二种方法又存在概念粒度较粗、领域本体构建难度较大的问题。因此,基于概念关联的资源语义聚合虽然在理论上可实现深层语义聚合,但实际操作困难较多。现有文献主要面向网络资源,例如,陈果 针对文本中共现频次提出面向用户需求的关联挖掘,结合MeSH词表中的概念关联以及概念对在文献中的关联,提升了学术网络资源语义聚合的效果。商宪丽等 出于标签蕴含丰富的语义信息,且可以代表资源主题内容的考虑,提出了基于标签分析学术博客标签网络,建立了基于标签共现的学术博客知识资源聚合的整体框架,进而完成学术博客资源聚合。
关联数据(linked data)也是馆藏资源聚合的常用方式。关联数据是Tim Berners-Lee提出的语义网轻量级实现方式,可以将跨来源、跨类型的数据关联起来,实现知识共享、序化 。国际互联网协会(W3C)推荐关联数据以披露、关联互联网中其他资源规范,涵盖信息资源、非信息资源。其中信息资源被视为一类编码型文件,以刻画其他资源;非信息资源可被视为客观世界中的实体对象,涉及人类社会、自然界等 。此外,作为技术框架,关联数据主要以机器可读的模式呈现网络数据,同时基于数据关联串联网络数据,使得结合规范描述、发布数据便能高效运用数据 。关联数据的应用以互联网为基础,其发布过程主要包括四个步骤 :(1)结合资源描述框架(即RDF)描述资源;(2)基于RDF关联互联网中其他相关的数据;(3)在互联网上披露数据;(4)提供数据检索的开放接口。
由于更强调刻画数据关联,关联数据可辅助资源聚合。游毅等 考虑关联数据在资源URI复用、RDF链接过程中的功能,提出包含数据发布层与链接管理层的基于关联数据的馆藏资源聚合模式。李强 分析了基于关联数据的数字资源聚合模式,提出了基于关联数据的数字图书馆资源聚合模式。丁楠等 结合关联数据综合刻画图书馆内外部资源,采用实体识别与本体映射等整合信息。孙红蕾等 在总结跨系统区域图书馆联盟资源建设现状的基础上,设计了一个基于关联数据、能有效满足用户多层次和细粒度需求的跨系统区域联盟资源整合框架。
除上述文献,也有其他类型聚合方式被应用。比如,何超等 基于Web链接挖掘搭建了聚合模型,涵盖数据、挖掘、语义聚合、可视化展示等板块,结合内部结构、URL、超链接等挖掘技术完成对语义知识的挖掘。毕强等 设计了数字资源聚合的方法体系框架,涵盖概念聚类层、概念关联层、知识关联层,将核心聚合嵌入框架各层中。