近年来,政治、经济、人口、环境、公共安全等诸多因素在人类社会发展进程中所发挥的综合作用,使得社会突发事件呈现出频发的态势。在我国,随着网络化、开放式的发展,由社会突发事件所引发的网络话题正在以极强的延展力、渗透力和独特的流动性、互动性,加剧个体问题的普遍化、局部问题的全局化、简单问题的复杂化及一般问题的热点化。因此,对于社会突发事件的及时监测、分析、应对和妥善处置就显得尤为重要。同时,海量事件背后,也会反映出具体的社会民生问题与诉求。
通过网络上实时发布的Web新闻,用户能够获知当前发生在社会上的事件,而随着这些事件的不断发生,用户所关注的Web新闻大数据中又蕴含着有待检测的Web层次化话题。因此,面对这些Web新闻大数据,用户更渴望从中获知能够体现数据量大、时效性高、可疑性低、多样性强、蕴含价值高等特点的大数据信息。这些信息又能反映出社会突发事件从缘由开始,逐步深入到发展、曲折、高潮,直至最终结束的过程。
当公众跟踪某个社会事件时,在每个跟踪时间点上都会有Web新闻大数据给予支持,从研究者的角度,可将其视为由一系列事件支持的Web话题。某个Web话题又可衍生出一系列事件,并形成一个针对这些事件的跟踪过程,进而形成Web层次化话题。利用人工方式去挖掘这些事件下的Web层次化话题,不仅工作量大、难度大,而且检测与跟踪结果也不准确,还存在一定的滞后性。因此,针对Web新闻所具有的多维特征,Web层次化话题检测与跟踪将成为一种从大数据中发现知识并进行深度分析的科学手段,其研究具有重要的理论与实际意义。
在大数据驱动下,本书将研究如何分析Web文本的语义特征,如何评价Web文本的实用特征,如何跟踪Web文本的使用特征,具有Web文本挖掘、网络信息智能分析技术拓展的理论意义。在社会事件背景下,本书将研究如何获知所跟踪的话题及其衍生事件以满足大数据检索需求,如何获知社会事件的发展态势及其话题的跟踪趋势,如何预警社会事件、监测突发事件以及时采取应急管理措施,这对Web文本挖掘、网络信息智能分析与大数据技术的应用扩充具有实际意义。