随着互联网的迅速发展,Web系统在满足大量用户访问的同时,几乎每天都在产生大量的用户行为数据(用户在使用系统时通过点击、浏览等行为产生的日志数据)及业务交互数据。通过对这些行为数据进行分析可以获取用户的浏览行为,挖掘数据中的潜在价值,从而更好地、有针对性地进行系统的运营。然而随着日志数据每天上百吉字节地增长,传统的单机处理架构已经不能满足需求,此时就需要使用大数据技术并行计算来解决。
本书通过“用户搜索行为分析系统”项目从0到1、手把手讲解如何使用大数据技术对搜索引擎中的海量用户搜索日志数据进行用户行为分析,最终实现以下需求:
对于实时统计,最终将使用柱形图以可视化的形式在浏览器中实时动态展示并排名,展示效果如图1-1所示。
图1-1 可视化柱形图实时展示搜索词访问量
图1-1柱形图的横坐标表示用户搜索的关键词,纵坐标表示关键词对应的搜索访问数量。