前言

在全球数字化的时代，一个随处可见的时髦词是“数据”（data）。“您的观点有数据支撑吗？”“您的测量有信度吗？”“您的统计分析方法正确吗？”……应用统计学是关于数据收集、数据整理、数据分析和数据解释的大学问，是一把探索未知的利刃，是一种理性的思维与解决问题的方式。

语言学研究，特别是应用语言学研究，重视实证研究，重视“让数据说话”。语言学借助统计分析方法，从看似杂乱无章的数据中探索语言本身和语言学习的规律，促进语言学理论的构建和语言教学实践的发展。应用统计学是应用数学的一个分支。对于敬畏数学的语言学研究者来说，“统计学是一门外语”，是必须跨越的屏障。因此，熟谙统计分析方法是语言学研究者必备的素质，也是必须应对的挑战。

熟谙统计分析方法不能囿于经典统计分析方法。国内外统计学教材并不少见，但是以语言学为学科背景的统计学教材实不多见。更值得注意的是，面对语言学研究者的统计学教材大多围绕经典统计分析方法（如独立样本 t 检验），很少触及稳健统计分析方法。经典统计分析方法的介绍必不可少，但是无视统计学研究的新成就、只字不提稳健统计分析方法实乃憾事。很多稳健统计分析方法是在经典统计分析方法的基础上发展而来，是对经典统计分析方法的改良。之所以要对经典统计分析方法进行改良，是因为经典统计分析方法有较为严格的使用条件，即统计假设（statistical assumptions），这些条件在现实数据中难以得到满足。置统计假设于不顾，照搬经典统计分析方法，可能会导致错误的结论。稳健统计分析方法放宽条件限制，但是仍然保持着统计推理的合理性。在语言学研究中，数据违反经典统计分析方法所要求的统计假设（如正态分布和没有异常值）是常态，而不是例外，只是违反的程度因研究而异罢了。

绝大多数应用统计学教材以统计分析的软件操作介绍为主，特别是以SPSS（Statistical Package for the Social Sciences，社会科学统计数据包）的操作为主，淡化统计理论的介绍与解释。这不利于研究者深入理解统计学原理，揭示数据的本质，将研究发现牢固地建立在恰当的统计分析之上。不精通统计学原理，统计分析方法的选择难免出错，统计分析结果的解释难免不深入，甚至荒谬。

《语言学研究统计分析方法》为“十三五”江苏省高等学校重点教材。本教材系统地将传统与现代（稳健）统计分析方法融为一体，将统计分析理论与实践紧密地结合在一起，较为充分地体现应用统计学教学与研究的新成就。这部教材以语言学实证研究为背景，案例主要来自语言学的实证研究。考虑到语言学的跨学科性，案例分析也涉及少量来自教育学和心理学领域的实证研究。

这部教材选择R软件而不是SPSS软件作为辅助工具，理由几乎是显而易见的。R软件是功能强大的图形绘制、统计分析和统计分析编程软件，具有SPSS软件无可比拟的优势，如制图更灵活，开展稳健统计分析更方便。SPSS软件的典型特点是点击式菜单操作。虽然这种点击式使操作变得方便，但是方便的获得是以灵活性为代价的，特别是在稳健统计分析方法的使用上。研究者一旦熟练掌握了R语言，就无需过度依赖统计分析数据包，甚至自己可以编程，不仅使统计分析过程更加透明，而且能够深入探索各个统计量的特点和统计分析假设。

《语言学研究统计分析方法》利用R软件和数据包的独特优势，完整展现各个统计分析程序，重视统计学知识的融会贯通，凸显各个统计量之间的关系。本教材有选择地系统介绍在语言学研究中较为常用的传统和现代统计分析方法，旨在提高学习者统计素养（statistical literacy），使之学会如何采用有效手段揭示数据的特点和模式，提高统计分析和统计决策能力。

本教材包括11章，大体上遵循由描述性统计到推理统计、由简单统计方法到复杂统计方法、由传统统计方法到现代（稳健）统计方法的编排原则。

第1章简要介绍R软件和数据包的安装、R软件的特点以及基础R语言。

第2章介绍图形基本结构和R制图使用的基础函数和变元。本章还集中介绍语言学研究中较为常用或有潜在使用价值的基本图形，如线图、核密度图和散点图。

第3章和第4章讲解描述性统计与推理统计分析使用的一些常用概念。第3章介绍描述性统计使用的统计量，讨论如何利用不同的统计量从三个维度描述数据特点和模式——集中趋势测量、离散性测量和分布形状。介绍的统计量包括常规统计量（如平均数和标准差）和稳健统计量（如20％截尾平均数和缩尾方差）。本章还详细介绍在单因变量正态分布 W 检验和 W′ 检验中使用的系数 a _i 的近似算法，概括单因变量正态分布的特点，探索正态分布检验的本质。第4章介绍总体平均数和截尾平均数95％置信区间以及统计显著性概念，讨论与之相关的几个统计概念，如第一类错误和第二类错误。

第5章介绍常用的信度分析方法，包括 KR20 、 α 系数和Cohen’s Kappa。这些信度分析方法适用于不同类型的数据。皮尔逊相关系数也常用于信度分析。出于内容编排的需要，皮尔逊相关分析放在第6章介绍。

第6章前半部分介绍两种常规的相关分析方法——皮尔逊相关分析和斯皮尔曼秩次相关分析，结合案例探讨皮尔逊相关分析统计假设及其诊断方法。本章后半部分介绍三种稳健相关分析方法——百分数弯曲相关、跳跃相关和百分位数自助相关。

第7章和第8章分别讲解两个独立组和两个相关组比较推理统计方法。第7章概括 t 分布的特点，介绍常规 t 检验和两种稳健统计检验方法——Welch检验和截尾平均数比较Yuen方法，采用模拟技术比较Welch’s t 检验和常规 t 检验以及Welch’s t 检验和Yuen方法。此外，本章还介绍效应量估计、Wilcoxon秩和检验和Cliff方法。第8章介绍常规配对样本 t 检验和稳健型截尾平均数比较方法、效应量估计以及Wilcoxon符号秩次检验，采用模拟技术探索数据非正态分布对配对样本 t 检验实际第一类错误率和统计效力的影响。

第9章讲解适用于多个独立组设计的传统与现代（稳健）统计分析方法。本章从传统的方差分析方法出发，系统介绍方差分析的基本概念和 F 分布的特点，详细探讨方差分析统计假设。本章涉及的统计分析方法包括：传统的单因素方差分析、稳健型Welch’s F 检验、截尾平均数比较Welch型方法、传统的双因素设计方差分析、稳健型双因素设计 Q 检验、单因素秩次型Kruskal－Wallis检验和单因素秩次型稳健方差分析。此外，本章还设专节介绍方差分析中的效应量估计。

第10章采用与第9章大致相同的编排方法，讲解适用于相关组设计的多种统计分析方法。传统的利用平均数的统计分析方法包括单因素重复测量方差分析和双因素混合设计方差分析。对应的稳健统计分析方法包括单因素设计截尾平均数比较和配对比较以及双因素混合设计稳健方差分析。本章还介绍重复测量方差分析中的效应量、传统的Friedman秩次检验和单因素秩次型稳健方差分析。

第11章介绍多元回归分析方法，是本教材的最后一章。回归分析与独立组和相关组比较一样都是语言学实证研究中常用的统计分析方法。独立组和相关组比较的目的是检验差异性，回归分析的目的则是检验自变量对因变量的解释力或预测力。本章首先聚焦于普通最小二乘法回归分析，利用数值例子和R代码详细解释普通最小二乘法回归分析程序、回归方程对数据的拟合优度检验、模型有用性检验、统计假设与回归诊断。案例分析不仅包括主效应检验，而且还包括交互效应检验，并采用自助方法对拟合模型进行验证。统计假设与回归诊断采用图形诊断与正式检验相结合的方法。在数据违反普通最小二乘法回归分析统计假设时，本章介绍了一种有用的稳健回归分析方法——自助方法。本章的最后一部分讲解二项逻辑斯蒂回归分析，包括二项逻辑斯蒂回归分析程序、最大似然估计以及统计假设和回归诊断。案例分析不仅包括主效应检验，而且还包括交互效应检验，采用自助方法对拟合模型进行验证，介绍如何利用列线图（nomogram）预测结果发生的概率。

应用统计学研究的进展和R软件的开发为研究者检验研究假设、探索数据、发现模式提供科学有效的手段。《语言学研究统计分析方法》立足于语言学实证研究，较为系统地体现统计学教学与研究的最新成果和R软件强大的编程、制图和统计分析功能，融传统与现代统计分析方法为一体，秉承“做中学”（learning by doing）的教学理念。本教材适合于语言学专业高年级本科生和研究生，也可以作为语言学专业博士生和其他社会科学研究者的参考书。

本教材得到教育部人文社会科学研究基金项目“二语习得相关性研究方法论评价体系研究”（19YJA740001）的资助，出版过程中承蒙南京大学出版社鼎力支持，在此一并致谢！

鲍贵
南京工业大学
张蕾
北京工业大学
2020年7月