针对社会上频发的事件所发布的Web新闻数量已达到PB级别,并且已呈现出大数据特点。基于相关问题定义,本节提出一个基于大数据五元组语义描述分析的话题检测框架,如图2.4所示。
图2.4 基于大数据五元组语义描述分析的话题检测框架
该框架主要通过如下模块完成对Web新闻五元组语义的描述分析。利用Web新闻与Web新闻的主题等集合,度量Web新闻主题相似度。利用筛选出的与主题相关的Web新闻实例URL和源码,提取Web新闻实例信息。利用InitialUrlQueue与WaitingUrlQueue,计算Web新闻链接重要度。利用提取出的Web新闻实例信息,分析过滤模式与基过滤模式,并在主题背景下增量式提取出Web新闻实例。利用Web新闻发布时间与内容分词结果等数据项,分析Web新闻时间项。利用已分析出的事件发生时间标准化结果,分析Web新闻命名实体项。利用已分析出的事件发生时间、发生地点、发起对象与命名实体,分析Web新闻事件项。利用Web新闻内容关键词与发布时间标准化结果,以及Web新闻时间点生成序列,分析出Web新闻五元组语义描述结果。基于上述框架,可有效提取出报道社会事件的海量Web新闻实例,可有效从海量Web新闻实例数据项中分析出能够表示其五元组语义特征的关键信息,以研究出一种面向语义特征的网络话题检测方法,并设计如下算法。