在Web文本挖掘与大数据技术发展的背景下,网络已成为传播最受用户关注信息的服务之一。作为该服务中的一种流式资源,Web新闻的数量正呈现爆炸式的增长态势,而产生这种情形的根源是社会上不断发生突发事件。面对海量的Web新闻,如何从中分析出可服务于用户的信息是近年来研究者所关注的问题。
在Web文本挖掘技术领域,话题可描述海量Web新闻中所蕴含的和用户所关注的内容。随着社会上不断发生各种事件,用户所关注的海量Web新闻中蕴含着有待检测与跟踪的话题。若利用人工方式去挖掘这些话题,不仅工作量大、难度大,而且检测与跟踪结果也不准确,还会存在一定的滞后性。因此,话题检测与跟踪将成为一种话题发现和分析的科学手段。针对Web新闻所具有的多维特征,研究大数据背景下Web层次化话题检测与跟踪关键技术是一个具有实际意义的研究方向。
通过研究话题检测与跟踪关键技术相关的文献,笔者研究并应用了大数据背景下的Web层次化话题检测与跟踪关键技术。首先,从发生的社会事件中挖掘出能够检测话题的Web新闻内容和语义特征。其次,基于这些特征挖掘出能够检测话题的Web新闻实用特征。最后,基于上述特征与话题跟踪指标挖掘出面向Web新闻的话题与事件语料。
(1)基于大数据五元组语义描述分析的话题检测关键技术。
针对该关键技术,设计了基于大数据五元组语义描述分析的话题检测框架;设计了主题相似度度量算法与增量实例提取算法,可从海量Web新闻中增量式提取出主题实例;设计了时间序列构建算法与语义描述分析算法,使Web新闻能够形式化描述出所检测的话题。该关键技术充分考虑了Web新闻实例所归属的社会事件背景,充分考虑了Web新闻数量随着社会事件发展的变化,并将非结构化的Web新闻内容转存为结构化的五元组语义描述,降低了Web新闻实例聚类的复杂性,提高了Web新闻话题检测的准确率。
(2)基于大数据实用性评价的话题检测关键技术。
针对该关键技术,设计了基于大数据实用性评价的话题检测框架;设计了语义时效分析算法,以对能够描述话题的Web新闻实例进行语义时效分析;设计了语义真实分析算法,以对能够描述话题的Web新闻实例进行语义真实分析;设计了实用特征分析算法,以对能够描述话题的Web新闻实例进行实用特征分析。该关键技术充分考虑了Web新闻实例所具有的基于时效性和真实性的实用特征,充分考虑了所检测话题的Web新闻实例质量,再次提高了Web新闻话题检测的准确率。
(3)基于大数据使用行为分析的层次化话题检测与跟踪关键技术。
针对该关键技术,设计了基于大数据使用行为分析的层次化话题检测与跟踪框架;设计了使用模式分析算法与时序话题构建算法,可跟踪面向Web新闻的话题;设计了时序事件构建算法与事件演化分析算法,可挖掘出面向Web新闻话题的演化事件。该关键技术不仅考虑了Web新闻实例所具有的使用行为,还考虑了社会事件背景下所具有的话题及其演化对象之间的逻辑层次关系,降低了话题检测的复杂性,提高了话题跟踪分析的准确率。
在话题应用方面,可将笔者在大数据背景下的Web层次化话题检测与跟踪过程中所完成的创新性研究成果应用到社会事件背景下,以验证笔者所提出的关键技术、所设计的算法及所进行的实验的科学性与可行性。
本书的出版受北京市教育委员会科技计划一般项目资助,项目号为KM202011417011;受北京市自然科学基金项目资助,项目号为9222012。