购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 Web话题跟踪的研究现状

话题跟踪分析与应用是一个对已检测出的话题进行分析,并从分析结果中获取话题演化的路径,再将其描述出来的工程性过程。为了确保话题跟踪分析与应用结果的准确率,在分析过程中需要利用海量语料的多维特征,利用已检测出的话题语料,定义解决问题的模型,提出解决问题的方法。如表1.4所示,在现有研究中,已从检测基于内容描述与特征分析的话题中对其跟踪过程进行分析,从分析语料库构建方式中对话题跟踪分析结果进行应用。

表1.4 话题跟踪分析与应用方法研究现状

O'Callaghan等提出了一种面向话题相关描述的话题跟踪分析方法,该方法分析了话题语料所具有的特征,分析了话题信息中的语义描述,分析了话题语义描述的相关性,分析出了海量信息中的话题跟踪过程,实验过程和结果说明了该方法相对于传统的话题跟踪分析方法的优越性。Tang等提出了一种面向突发话题和间歇性演化话题的话题跟踪分析方法,该方法设计了话题跟踪分析模型,划分了面向演化时间的文档,跟踪了基于先验话题的新话题演化路径,分析了突发话题的间歇性再生模式,分析出了海量文档中的话题跟踪过程,实验过程和结果说明了该模型相对于传统的话题跟踪分析模型的优势。Wang等提出了一种基于动态共现词网的话题跟踪分析方法,该方法设计了基于动态共现词类的纵深框架,设计了类标注和演化验证算法,描述了面向冲积图和彩色网方式的跟踪分析结果,分析出了海量信息中的话题跟踪过程,实验的案例研究和评价过程说明了该方法的可行性和有效性。Crossno等提出了一种基于文档聚类影响的可视化话题跟踪分析方法,该方法分析了文档之间的概念相似度,分析了文档之间的链接关系,分析了文档聚类结果,分析出了海量文档中的话题跟踪过程,实验的案例研究和评价过程说明了该方法相对于传统的话题跟踪分析方法的优越性。Gretarsson等提出了一种面向海量文本语料的可视化话题跟踪分析方法,该方法构建了语料与文档的话题可视化视图,设计了话题迭代演化模型,构建了多维话题演化可视化视图,分析出了海量语料中的话题跟踪过程,实验过程和结果说明了该方法的有效性。

综合上述话题跟踪分析方法的研究可得出,依据网络话题所具有的特点,目前在话题跟踪分析方法研究中,仍存在着一些亟待突破的难题。

第一,没有充分考虑到如何结合话题的描述和实用特征对其进行跟踪分析。若不充分考虑这一点,则会降低话题跟踪分析结果的准确率,降低大数据背景下的Web层次化话题跟踪应用效果。

第二,没有充分考虑到该过程还需要依靠其衍生的关联信息来支持,即基于话题的检测,去跟踪该话题所衍生的关联信息,分析该话题的演化过程。

第三,仅考虑了从支持话题的相关信息的内容与摘要等维度去描述,而忽视了信息中所蕴含的多维特征。若不从多维度对信息进行聚类与序列等方式的描述,则无法以多维浏览样式呈现信息,必将降低用户对信息的关注程度。

依据上述话题跟踪分析过程中所存在的问题和亟待突破的难点,笔者拟解决如下关键问题。第一,研究基于使用行为分析的话题跟踪分析方法,以对已检测出的话题进行跟踪分析;第二,探究社会事件背景下的话题应用,以描述话题检测与跟踪分析结果。

在Web文本挖掘与大数据技术发展的背景下,语料库中可存储海量的计算机能够处理的文本数据,以用于面向研究对象的定性和定量分析,并可对其属性与语义,以及关系进行系统性分析。自20世纪80年代以来,语料库的构建一直受到研究者的关注,并已成为话题应用的一个重要研究方向。目前,随着社会事件的频发,网络媒体对其报道的深入,以及网络用户对其持续的关注,研究者已认识到,应利用语料库来存储报道社会事件进展的海量Web新闻实例,并研究如何对其进行分析与应用。语料库的构建不仅适应国家网络信息化建设的需求,也为面向Web新闻的文本挖掘与大数据技术研究提供了更为全面的语料资源。通过Web新闻事件语料库,网络用户可尽早准确且全面地获知各社会事件的发生情况和发展趋势,政府相关部门也可及时采取应急措施,并制定科学的防范计划和行为决策。

从以Web新闻群为中心的应用出现至今,研究者更偏向于对面向Web新闻内容的可视化研究。Wei等构建了一个面向用户前台需求的Web新闻静态显示系统,该系统采用了三层设计模式,可通过自定义模板实现对Web新闻的检索与浏览功能。Hu等构建了一个面向用户前台需求的Web新闻动态显示系统,该系统的主要特点是能够动态处理语料库中随时更新的Web新闻内容。Hu等通过匹配ExtJS与JavaScript,构建了一个具有个性推荐功能的Web新闻信息平台,在该平台上,可对Web新闻内容进行采集与整理,以及展示等操作,以供用户检索与浏览。Yang等提出了一种适用于Web新闻摘要自动生成的方法,并构建了一个基于向量空间模型的Web新闻摘要自动生成系统,在该系统中所生成的摘要不会受到领域知识的限制,在能够有效地去除冗余信息的基础上还能更好地反映出Web新闻内容。Li和Chen构建了一个具有对Web新闻进行检索与处理,以及存储功能的集成化平台,在该平台上,可实现面向特定Web新闻领域的内容处理与操作。

基于对上述话题跟踪应用方法的研究可总结出,研究者在初始阶段只考虑了对Web新闻信息进行管理,而到后续阶段逐步考虑了对Web新闻信息进行分析与检索。虽然,Web新闻应用已取得了一些进展,但仍然存在如下缺陷。第一,仅表示了Web新闻内容与摘要等维度,而忽视了Web新闻中所蕴含的多维特征,无法以多维浏览样式呈现Web新闻,降低了用户对Web新闻的关注程度。第二,用户更希望先关注到目前社会上有哪些话题,再去浏览支持该话题的Web新闻,或者先关注到目前社会上发生了哪些事件,再去浏览支持该事件的Web新闻,然而目前的研究缺乏对话题与事件,以及Web新闻之间的层次化组织。第三,用户更希望去跟踪社会事件从缘由开始,逐步深入到发展、曲折、高潮,直至最终结束的一个完整逻辑过程,并且更希望在其中的某个时间点去关注该状态下的Web新闻,然而目前的研究还未能生成类似的动态跟踪过程。

因此,笔者在研究如何检测面向Web新闻的话题,以及如何分析面向Web新闻的话题跟踪的过程中,逐步构建Web新闻话题检测与跟踪分析语料库,从多维度将以点式存在的Web新闻部署在时间轴上,并对时间轴上的序列节点进行动态跟踪分析。

若要对海量的Web新闻进行话题检测与跟踪,除了要对其进行基于Web结构与内容的挖掘,还要对其进行基于Web使用的挖掘,以便从用户对海量Web新闻的使用行为记录中跟踪其关注的话题与事件。因此,本节要对已有的Web新闻使用行为分析方法展开研究,分析其中存在的问题和亟待突破的难点。

20世纪90年代,有研究者提出要在无人工干预的情况下,即在Web新闻使用行为分析过程中,客观地跟踪被关注的话题与事件,并将跟踪过程分为如下三类:第一,在线检索行为跟踪;第二,在线浏览行为跟踪;第三,在线标注行为跟踪。面向Web新闻的使用行为分析方法研究现状如表1.5所示。

表1.5 面向Web新闻的使用行为分析方法研究现状

基于上述话题跟踪过程,可实现如下目标。第一,将Web新闻信息流分割成多个报道片段;第二,挖掘出属于特定主题的所有报道片段;第三,从报道片段中检测新主题,并将属于同一主题的所有报道片段进行聚类;第四,挖掘出与新主题相关的第一个出现的报道片段;第五,确定多个报道片段所涉及的内容是否属于同一主题。针对Web新闻使用行为记录,Huang等先利用向量空间模型来表示跟踪的Web新闻实例,再利用类重心来表示每则Web新闻所反映出的主题,并提出了一种基于重心自适应的行为跟踪方法,用来分析Web新闻使用的动态过程。Ding等研究了如何对Web新闻使用行为进行分析,在融合了多种算法的基础上提出将自然语言处理技术应用于该研究过程。在借鉴了Single-Pass聚类思想,并分析了Web新闻使用特点的基础上,Nguyen和Jung提出了一种基于动态进化模型的事件检测与跟踪算法。针对Web新闻所报道事件的演化特点,Qiu提出了较为有效的单粒度行为跟踪方法,并在对行为进行组织的过程中提出了基于多层聚类的MLCS算法,以实现对行为的层次化组织。Zhou等提出了一个基于Web新闻使用行为分析的聚类模型,在该模型中,分析了Web新闻行为特征词维度和聚类阈值对聚类性能所产生的影响。Xu等提出了基于Web新闻使用内容分析的行为跟踪算法,并研究了基于Web新闻使用内容的词性和词频相融合的相似度计算方法。

上述对Web新闻使用行为分析的研究存在着如下缺陷。第一,仅考虑了从Web新闻使用行为的内容特征方面进行分析,而忽视了其五元组语义描述特征。若不充分考虑这一点,则会增大在线行为跟踪的范围,增大对Web新闻使用行为进行分析的难度。第二,没有充分考虑到Web新闻使用行为记录中的实例是否实用,即是否能够反映或支持使用行为的时效性和真实性。若不充分考虑这一点,则不具有实用性的Web新闻将会增大对其使用行为进行分析的范围和难度,降低其分析的准确率,增加算法的复杂性。第三,没有充分考虑到由Web新闻使用行为所衍生的一系列事件。若不充分考虑这一点,则会忽视从事件演化角度去跟踪Web新闻使用行为的过程。

因此,本书拟将Web新闻实用特征库及其使用行为记录作为使用行为分析的数据源,采用基于大数据五元组语义描述分析,以及大数据实用性评价的使用行为分析方法,以获取对Web新闻进行话题检测与跟踪的语料库,解决在面向Web新闻的使用行为分析方法中存在的问题。 HGh3NXyoxKaaBlwQgHDbjEyvxV9YF4/urTRidGajr3uSZmqDF7bUJLeuVt0MbZ9/

点击中间区域
呼出菜单
上一章
目录
下一章
×