计算机与网络已经融入人们的日常学习、工作和生活之中,成为人们不可或缺的助手和伙伴。计算机与网络的飞速发展完全改变了人们的学习、工作和生活方式。智能化是计算机研究与开发的一个主要目标。近几十年来的实践表明,统计机器学习方法是实现这一目标的最有效手段,尽管它还存在着一定的局限性。
本人一直从事利用统计学习方法对文本数据进行各种智能性处理的研究,包括自然语言处理、信息检索、文本数据挖掘。近20年来,这些领域发展之快,应用之广,实在令人惊叹!可以说,统计机器学习是这些领域的核心技术,在这些领域的发展及应用中起着决定性的作用。
本人在日常的研究工作中经常指导学生,并在国内外一些大学及讲习班上多次做过关于统计学习的报告和演讲。在这一过程中,同学们学习热情很高,希望得到指导,这使作者产生了撰写本书的想法。
国内外已出版了多本关于统计机器学习的书籍,比如,Hastie等人的《统计学习基础》,该书对统计学习的诸多问题有非常精辟的论述,但对初学者来说显得有些深奥。统计学习范围甚广,一两本书很难覆盖所有问题。本书主要是面向将统计学习方法作为工具的科研人员与学生,特别是从事信息检索、自然语言处理、文本数据挖掘及相关领域的研究与开发的科研人员与学生。
本书力求系统而详细地介绍统计学习的方法。在内容选取上,侧重介绍那些最重要、最常用的方法,特别是关于分类与标注问题的方法。对其他问题及方法,如聚类等,计划在今后的写作中再加以介绍。在叙述方式上,每一章讲述一种方法,各章内容相对独立、完整;同时力图用统一框架来论述所有方法,使全书整体不失系统性,读者可以从头到尾通读,也可以选择单个章节细读。对每一种方法的讲述力求深入浅出,给出必要的推导证明,提供简单的实例,使初学者易于掌握该方法的基本内容,领会方法的本质,并准确地使用方法。对相关的深层理论,则予以简述。在每章后面,给出一些习题,介绍一些相关的研究动向和阅读材料,列出参考文献,以满足读者进一步学习的需求。本书第1章简要叙述统计学习方法的基本概念,最后一章对统计学习方法进行比较与总结。此外,在附录中简要介绍一些共用的最优化理论与方法。
本书可以作为统计机器学习及相关课程的教学参考书,适用于信息检索及自然语言处理等专业的大学生、研究生。
本书初稿完成后,田飞、王佳磊、武威、陈凯、伍浩铖、曹正、陶宇等人分别审阅了全部或部分章节,提出了许多宝贵意见,对本书质量的提高有很大帮助,在此向他们表示衷心的感谢。在本书的写作和出版过程中,清华大学出版社的责任编辑薛慧给予了很多帮助,在此特向她致谢。
由于本人水平所限,书中难免有错误和不当之处,欢迎各位专家和读者给予批评指正。
李航
2011年4月23日