购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1.2 中位数

样本中位数又称样本中数,是样本数据按升序排列后的中间数值。譬如在上面的第一个例子中,样本数据由小到大排列的顺序是:10,12,15,15,17,17,18,19,20,22。位于中间的数值是两个17,那么样本中位数是这两个数值的平均数,即17。这意味着,如果一组数值的样本量是偶数,在其中找不到一个数值正好把一组数据平均分成两半,则中间一对数值的平均值作为中位数。假如一组数据已经按照升序排列, n 是偶数, m n /2,则中位数计算公式为:

其中,下标(·)表示顺序值。如果一组数值的样本量是奇数,则位于中间的一个数是中位数。假如一组数据已经按照升序排列, n 是奇数, m =( n +1)/2,则中位数计算公式为:

例如,有一组按顺序排列的数据( n =11):10,11,12,13,14,15,16,17,18,19,20。中位数 M =15,因为有一半的数值(5个)大于15,有另一半的数值(5个)小于15。R计算中位数的函数是median(x),其中x代表一个数值向量。假如我们在上面一组数据中增加两个异常值50和60,则中位数 Mdn =16,很好地概括了主体数据。从这个例子可也看出,中位数对异常值具有耐抗性(resistant to outliers)。

虽然中位数和平均数都表示一组数据的集中趋势,但是其数值一般不同。当一组数值对称分布时,中位数和平均数相等。譬如,3,5,7,9,11的中位数和平均数都是7。3和11、5和9离这个中间值7分别是等距的。但是,当一组数据分布不对称时,中位数和平均数就不相等。譬如,1,5,7,10,22的中位数仍然是7,但是平均数则为(1+5+7+10+22)/5=9。相对于平均数,中位数对异常值具有抗扰性,中位数似乎是更好的位置测量。当然,情况并非如此简单。中位数也有自身的局限。譬如,在有些情况下,中位数对异常值的抗扰性也不够理想。另外,当抽样来自正态分布时,中位数标准误差(standard error, SE )相对于平均数标准误差较大,因而估计不准确。在数据满足正态分布的情况下,平均数是最优位置测量。认识到平均数和中位数各自的优缺点是很重要的。 eJJm/38bkN9GPOKqDXibUaRyzzXuXEpnWUQl5+MWralbl8b9YUAEALrBxHHi9Fwj

点击中间区域
呼出菜单
上一章
目录
下一章
×