在实际中,遇到一些随机变量,它们的分布往往很难直接得到(如滚珠体积的测量值等),但是与它们有函数关系的另一些随机变量,其分布却是容易知道的(如滚珠直径的测量值).因此,要研究随机变量的函数的分布,从而通过它们之间的函数关系,由已知的随机变量的分布求出与其有函数关系的另一个随机变量的分布.在这一节中,我们将讨论如何由已知的随机变量 X 的分布去求它的函数 Y = g ( X ) ( g ( X )是已知连续函数)的分布.
定义 2.9 设 g ( x )是定义在随机变量 X 的一切可能值 x 的集合上的函数.若对于 X 的每一可能取值 x ,有另一个随机变量 Y 的相应取值 Y = g ( x ),则称 Y 为 X 的函数,记作 Y = g ( X ).
设 X 是离散型随机变量,则其函数 Y = g ( X )也是离散型随机变量.
例 2.21 设随机变量 X 的分布律见表 2.7.
表2.7
求 Y = 3 X + 1 与 Z = X 2 的分布律.
解 Y 的可能值为-2,1,4,7,则
同理,可得
Y 的分布律列见表 2.8.
同样, Z 的可能值为 0,1,4,则
Z 的分布律列见表 2.9.
表 2.9
一般地,若已知 X 的分布律 P { X = x i } = p i ( i = 1,2,…), Y = g ( X ),则 Y 的分布律可由下式求得
二维码 2.5
股票价格问题
连续型随机变量的函数不一定是连续型随机变量,但本书主要讨论连续型随机变量的函数是连续型随机变量的情况.对于连续型随机变量 X 的函数 Y ,常常可利用已知 Y 与 X 的函数关系式 Y = g ( X ),先求 Y 的分布函数,再求 Y 的概率密度函数.
例 2.22 设随机变量 X 的概率密度为
求随机变量 Y = 2 X + 8 的概率密度 f Y ( y ).
解 先求 Y = 2 X + 8 的分布函数 F Y ( y ).
于是
设 X 是连续型随机变量,概率密度为 f X ( x ),则 Y = aX + b ( a ≠0)的概率密度为
证明留给读者.
对于连续型随机变量 X ,其函数 Y = g ( X )也是连续型随机变量时(如 Y = g ( x )为连续函数时),为求 Y 的概率密度,可先将事件{ Y ≤ y }转化为与之等价的事件{ X ∈ A },利用已知的 X 的概率密度求出 Y 的分布函数 F Y ( y ),再求 F Y ( y )的导数 F Y ′ ( y )即可得 Y 的概率密度 f Y ( y ).这种通过先求分布函数,再对其求导数,从而得出概率密度的方法称为 分布函数法 .
例 2.23 设 X ~ f X ( x )(-∞ < x < + ∞ ),求 Y = X 2 的概率密度.
解 先求 Y 的分布函数 F Y ( y ).
由于 Y = X 2 ≥0,故当 y ≤0 时,有
当 y > 0 时,有
于是,得到 Y 的概率密度为
定理 2.3 设 X 为连续型随机变量, X ~ f X ( x ) (-∞ < x < + ∞ ).又设函数 g ( x )处处可导,且恒有 g′ ( x ) > 0(或恒有 g′ ( x ) < 0),则 Y = g ( X )是连续型随机变量,其概率密度为
其中 α = min{ g ( -∞ ), g ( + ∞ )}, β = max{ g ( -∞ ), g ( + ∞ )}, h ( y )是 g ( x )的反函数.
证 只证 g′ ( x ) > 0 的情形,此时 g ( x )在(-∞ ,+ ∞ )严格单调增加,它的反函数 h ( y )存在,且在( α , β )上严格单调增加,可导.下面先求 Y 的分布函数 F Y ( y ).
因为 Y = g ( x )在( α , β )上取值,故
当 y ≤ α 时, F Y ( y ) = P { Y ≤ y } = 0.
当 y ≥ β 时, F Y ( y ) = P { Y ≤ y } = 1.
当 α < y < β 时,
于是,得 Y 的概率密度
对于 g′ ( x ) < 0 的情形可以同样地证明,我们有
合并此两式,即概率密度式可得证.
特别地,若 f X ( x )在有限区间[ a , b ]以外等于零,则只需假设在[ a , b ]上恒有 g′ ( x ) > 0(或 g′ ( x ) < 0),此时 α = min{ g ( a ), g ( b )}, β = max{ g ( a ), g ( b )}.
例 2.24 设随机变量 X ~ N ( μ , σ 2 ),试证明: X 的线性函数 Y = aX + b ( a ≠0)也服从正态分布.
证 X 的概率密度为 (-∞ < x < + ∞ ),
由 y = g ( x ) = ax + b ,可解得 ,且有 .
得 Y = aX + b 的概率密度为
则
即
特别地,在上例中取 ,得
1809 年,约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauss,1777—1855)发表了其数学和天体力学的名著《绕日天体运动的理论》.在此书末尾,他写了一节有关“数据结合”(data combination)的问题,实际涉及的就是这个误差分布的确定问题.
设真值为 θ , n 个独立测量值为 X 1 , X 2 ,…, X n .高斯把后者的概率取为
其中 f 为待定的误差密度函数.到此为止,他的做法与拉普拉斯相同.但在往下进行时,他提出了两个创新的想法.
一是他不采取贝叶斯式的推理方式,而直接把使上式达到最大的 作为 θ 的估计,即使
成立的 现在我们把 L ( θ )称为样本 X 1 , X 2 ,…, X n 的似然函数,而把满足上式的 称为 θ 的极大似然估计.这个称呼是追随费歇尔(Fisher)的,因为他在 1912 年发表的一篇文章中,明确提到以上概念并非针对一般参数的情形.
如果Laplace采用高斯这个想法,那他会得出,在已定误差密度为
基础上,其中 m > 0 为未知参数 .θ 的估计是样本 X 1 , X 2 ,…, X n 中位数med( X 1 , X 2 ,…, X n ),即 X 1 , X 2 ,…, X n 按大小排列居于正中的那一个( n 为奇数时),或居于正中的那两个的算术平均( n 为偶数时).这个解不仅计算容易,且在实际意义上,有时比算术平均 更为合理.不过,即使这样,拉普拉斯的误差分布大概也不可能取得高斯正态误差那样的地位.原因是 是线性函数,在正态总体下有完善的小样本理论,而med( X 1 , X 2 ,…, X n ),要用于推断就难于处理.另外,这里所谈的是一个特定的问题——随机测量误差是如何的分布?测量误差是由诸多因素形成,每种因素影响都不大.按中心极限定理,其分布近似于正态分布是势所必然.其实,早在1780 年左右,拉普拉斯就推广了棣莫弗(De Moivre)的结果,得到了中心极限定理的比较一般的形式.可惜的是,他未能把这一成果用到确定误差分布的问题上来._
高斯的第二点创新的想法是,他把问题倒过来,先承认算术平均 是应取的估计,然后去找误差密度函数 f 以迎合这一点,即找这样的 f ,使由(2)式决定的 就是 高斯证明了只有在
条件下才能成立,这里 σ > 0 为常数,这就是正态分布 N (0, σ 2 ).
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作.高斯是一个伟大的数学家,重要的贡献不胜枚举.现今德国 10 马克印有高斯头像的钞票,其上还印有正态分布 N ( μ , σ 2 )的密度曲线.这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项.
在高斯刚做出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来.这要到 20 世纪正态小样本理论充分发展起来以后.
拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于 1810 年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布.这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成.后来到 1837 年,海根在一篇论文中正式提出了这个学说.其实,他提出的形式有相当大的局限性:海根(Hagan)把误差设想成个数很多的、独立同分布的“元误差” ξ 1 , ξ 2 ,…, ξ n 之和,每个 ξ i 只取± a 两值,其概率都是 ,由此出发,按棣莫弗(DeMovier )的中心极限定理,立即就得出误差(近似地)服从正态分布.
拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释.因为,高斯的说法具有一点循环论证的思想:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点.但算术平均没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处.拉普拉斯的理论把这断裂的一环连接起来,使之成为一个和谐的整体,有着极重大的意义.