经过一年多的筹划、讨论、摸索、资料收集和编写,这本书终于问世了。2013年被称为大数据元年,而维克托·舍恩伯格所著的《大数据时代》一书,让大数据的理念和应用案例深入人心,引发了人们对大数据的强烈兴趣,并希望了解更多关于大数据的知识。2013年5月,我们开始策划这本书,其初衷就是为了帮助读者从理论、模式、具体的大数据技术及行业应用方面更加深入地理解和运用大数据。在这一年中,大数据本身也经历了迅猛的发展和充实,一方面是开源大数据技术的成熟和普及,另一方面是大数据行业鲜活应用的不断涌现。然而,所有这些都只是大数据威力的冰山一角,随着数据价值的日益凸显和数据的相互关联,大数据必将在未来几年带来全行业翻天覆地的变化和革命。
清华大学大数据处理中心的林辉主任在数据科学理论方面进行了初步探索,创新性地将大数据的生产要素特质进行了深化,并提出了数据的基因特质。数据生产要素化必将撼动原有的生产要素配置,促进其重组、转化和优化,带动技术和产业革命。而数据的基因特质则决定了多元数据的交叉、融合、裂变和进化,会产生意想不到的创新和发展模式。在本书中,我们不仅梳理了大数据的理论及创新指导方法论,全面地介绍了大数据相关的基础架构支撑、采集、存储、分析和处理、展示及交互等技术类别和开源实现,还深入分析了大数据在中国信息化建设、产业革命、智慧城市、三网融合等各方面的应用模式及实施路径,同时结合全球互联网及传统产业巨头的大数据应用,以及清华大学大数据处理中心在行业大数据的探索和实践,对大数据案例进行了综合分析。大数据的蓬勃发展是我国信息化发展建设过程中的一次不可多得的机遇,本书只是在大数据理论和实践上的一个粗浅尝试,我们也欢迎大家能和我们一起交流探讨,一起促进我国的云计算及大数据产业的发展,摆脱国外技术的垄断和绑架,促进民族自主技术和产品的发展。
我很感谢一起参与本书编写的专家学者,有来自微软的沈寓实、李雨航,百度的沈抖,哈佛大学的郭健,金亚科技的袁海波,为我们提供了包括云体系、安全、广告、数据挖掘、智能电视等多方面的专业知识和见解,正是你们的奉献、支持和鼓励才让这本书得以完工。我也要特别感谢清华大学大数据处理中心的同仁们,以及电子科技大学极限网络计算与服务实验室的老师和同学们,你们为本书做了大量的工程实践和资料收集整理工作,特别是肖宇、赵虎、赵志刚、李有福、王贤斌、李小龙、连路朋、刘春雷、陈尧等,谢谢你们的辛苦工作。我要尤其感谢我的妻子昆和我的女儿Sophie,你们是我努力前行的原动力。
由于我们对于大数据的理解以及知识水平都有局限,书中错误或疏漏之处在所难免,敬请读者谅解,如有问题或建议请发邮件service@tsinghuabigdata.com联系我们,谢谢读者的支持。
赵 勇
2014年6月9日于成都