我们生活中充满了各种数据。比如,在网上,我们会看到某城市或某省的平均工资,会看到他人购买商品后的评价等信息。某网站的点击量、在网页上的逗留时间……这些都是数据。那么,这些数据服从什么样的分布,有怎样的特点呢?在大数据时代,数据浩如烟海,如何从大量的数据中找出规律呢?这就需要统计的知识。统计和日常生活息息相关,我们可以使用统计的知识去理解和解决问题。本书通过案例的方式来讲述相关的统计知识。
第一篇“概率基础与正态分布”先研究了“先下手为强”这个案例,利用独立性解决了几个问题,然后研究品牌效应的问题,最后讲述了神奇的数字“37%”的来由。如果你有选择困难症,不妨看看。
第二篇“统计基础”首先给出了数据的分类,然后针对数理统计的“部分推断总体”的特点,为了使抽取的样本具有代表性,而不会出现幸存者偏差这类错误,给出四种抽样方法:简单随机抽样、分层抽样、整群抽样和等距抽样。不要小瞧抽样方法,它对做出正确的决策来说是至关重要的;如果数据选得不合适,给出的结论一般也是不正确的。美国历史上就发生过杂志社为了预测总统的选举结果进行民意调查,但是因为选取的样本不具有代表性,花费了大量的人力、物力,却做出错误的预测,导致杂志社关门停刊的事情。最后介绍了常见的统计量,如样本均值、中位数、极差、样本方差、标准差和四分位数等。图形可以展示数据的形态特点,“描述性统计”部分还给出了箱线图、茎叶图和直方图的画法。
第三篇“统计进阶”包括参数估计、假设检验、非参数假设检验、方差分析和回归分析等内容。“参数估计”中给出基金收益率的矩估计、电动汽车续航里程的区间估计、语音输入鼠标的识别正确率的区间估计。“假设检验”部分首先使用第二次世界大战时期统计学家研究面包重量的问题介绍假设检验的步骤,指出两类错误,并利用Z检验和t检验解决该问题。然后使用Z检验解决纸箱用纸厚度、降糖药重量和紫外线杀菌灯的寿命是否满足标准等问题;利用t检验解决安眠药的治愈率问题、饲料养鸡问题、饮料的容量问题,以及主动吸烟和被动吸烟有无区别,若有哪个危害性更大等问题。利用卡方检验解决手机电池的寿命、机床的精度等问题。利用F检验解决主动吸烟和被动吸烟的区别、哪个牛奶厂的牛奶更好等问题。“非参数假设检验”部分介绍了三种检验:卡方拟合优度检验、列联表的独立性检验和秩和检验。使用独立性检验研究吸烟和肺癌的关系、色盲和性别的关系等问题。使用秩和检验解决母亲的吸烟量对新生儿体重的影响等问题。
作者从事概率论与数理统计方面的教学和科研工作长达17年,具有丰富的概率论与数理统计的教学经验。编写案例尽量做到由简到难、通俗易懂,既保证有趣,又保证实用。读完这些案例,相信读者可以学会使用统计的知识去理解和解决问题。同时在此感谢中国纺织出版社有限公司的郝珊珊编辑,非常感谢她在这本书的编写过程中给予的大力支持和帮助。
田霞