



本节简单介绍统计学中的一些常用基本概念。
总体(Population)是指由研究对象的全部个体组成的集合。例如,如果我们要研究“XX商业银行员工追求卓越对自驱行为的影响”,那么总体即为XX商业银行的全体员工。为了实现充分的研究,理想情况下是应对XX商业银行的全体员工进行调查并收集数据。但在实际研究中,我们不可能也没有必要获取总体的数据资料。例如,如果该银行有10万名员工,调查全部员工的成本可能是难以承受的。因此,基于成本效益的原则,更可行的操作方式是从总体中随机或按照一定规则抽取一部分样本(Sample)进行研究,然后根据样本的数据特征来推断总体特征。这就是统计学中“统计推断”的概念。
通常情况下,我们期望的抽样方式是“随机抽样”,即每个样本有相同的概率被抽中,且样本被抽中的概率是相互独立的,即样本观测值之间满足独立同分布(Independent and Identically Distributed,IID)的假定,从而可以使得样本能够较好地代表总体。
样本集合是从总体中抽取的一部分元素的集合,样本总体中的单位数称为样本容量。一般情况下,当样本单位数达到或超过30个时称为大样本;当样本单位数小于30个时称为小样本。
统计推断的具体操作包括参数估计、假设检验和预测等。其中,参数估计可以细分为点估计和区间估计,假设检验可以细分为参数检验和非参数检验。
对于样本而言,频率(Frequency)的定义为:在
n
次随机试验中,随机事件A发生了
k
次,
称为随机事件A在
n
次试验中出现的频率。
对于总体而言,概率(Probability)定义为:在大量重复的试验下,用数值度量随机事件A发生的可能性,称为A发生的概率,记作 P (A)。
频率与概率的区别在于:频率是样本的试验结果,是指在试验中某一事件出现的次数与试验总数的比值,具有随机性,其取值会随试验结果而改变;而概率是总体的理论值,表示事件发生的固有可能性和不变性。
条件概率(Conditional Probability)是随机事件A在另一个随机事件B已经发生的条件下发生的概率。条件概率表示为 P (A|B),即在B发生的条件下A发生的概率。条件概率的公式为:
也就是说,条件概率等于事件A与事件B同时发生的概率除以事件B发生的概率。
如果随机事件B的发生不影响随机事件A的发生,也就是说:
则称随机事件A与随机事件B为相互独立的随机事件。
如果随机事件B的发生情况由互不相容的事件
组成,即这些事件不可能同时发生,并且这些事件
构成了一个必然事件(即必定有一个事件B
i
发生),那么针对任何事件A都有:
这一公式被称为全概率公式,无论随机事件A与随机事件B之间是否有关系,都会满足这一公式。公式的实质在于将随机事件A的发生切分成了 n 种可能,然后将每种可能发生的概率 P (B i )乘以在该种可能情形下随机事件发生的概率 P (A|B i ),最终将这些结果汇总,即得到随机事件A的总概率。
概率函数用于表示离散型变量的概率分布情况,表示离散随机变量 X 在各特定取值上的概率 P ( x ),其总和为1。
概率密度函数用于表示连续型变量的概率分布情况。前面提到的概率函数是针对离散型随机变量定义的,本身就代表该值的概率;而概率密度函数则是针对连续随机变量定义的,它本身不是概率,只有在某区间内积分后,才能得到该区间的概率。