在这一节中,我们来学习概率论中3个重要的概念——期望、方差和协方差。
概率论中的期望是指一个随机变量在所有可能取值上的加权平均值。换言之,它是对随机变量的一种数学期望或预测。
设X是一个离散型随机变量,它可以取得k个不同的值X 1 ,X 2 ,……X k ,它们发生的概率分别为P 1 ,P 2 ,……P k ,则X的数学期望是:
如果X是一个连续型随机变量,则期望是通过对其概率密度函数f(x)进行积分来计算的。
下面举个生活中的例子。假设你参加了一次抽奖活动,奖品有三个:一个小熊玩具、一顶帽子和一堆糖果。这三个奖品分别有不同的概率中奖,具体就像图3-9所示的这样。
(1)小熊玩具:中奖概率为1/3,价值为50元。
(2)帽子:中奖概率为1/6,价值为20元。
(2)糖果:中奖概率为1/2,价值为10元。
图3-9 不同奖品的中奖概率及它们的价值
那么我们可以定义随机变量X表示中奖得到的奖品,它可能取得三种不同的值(小熊玩具、帽子或糖果),而每个值出现的概率就是对应奖品的中奖概率。
如果我们想知道在这个抽奖活动中我们能够获得的平均奖品价值,我们需要计算期望。根据期望的定义,我们可以得到:
也就是说,在这个抽奖活动中,我们平均能够获得25元的奖品价值。当然,这只是一个理论值,实际上每个人获得的奖品都是随机的,有些人可能获得了小熊玩具,而另一些人则可能只获得了一堆糖果。但是,如果我们参加了很多次这样的抽奖活动,那么我们最终获得的平均奖品价值应该会趋近于25元。
期望在概率论中有很多重要的应用,例如在统计推断、随机过程和金融工程等领域都得到了广泛的应用。
为了帮助大家更好地理解期望的概念,请大家按照前言中的方法录制一个长度约为2分钟的短视频,介绍什么是期望。
可以参考的ChatGPT提示词如下。
“请介绍一下概率中的期望。”
“请用通俗易懂的语言,结合生活中的例子,介绍一下概率中的期望。”
为了让大家可以用代码的形式学习期望的概念,接下来大家可以让ChatGPT生成示例代码,并在Colab新建一个Notebook文件运行这些代码。
要让ChatGPT生成代码,可以参考的提示词如下。
“请给出使用Python演示概率中的期望的示例代码,需要可视化。”
方差是描述一组数据离散程度的统计量,它衡量一个随机变量或一组数据的值在期望值周围的分散程度。具体而言,方差是各个数据与其平均数之差的平方值的平均数。由于每个数据与平均数的差距可能为负数,因此为了消除正负抵消的影响,方差通常用平方来表示,并且以平方单位来衡量。方差越大,代表数据的离散程度越高;反之,方差越小,表示数据的集中程度越高。
下面举个例子。假设你想比较两个人的学习成绩,第一个人每科的分数分别是60、70、80、90和100分,而第二个人的分数都是80分。这里平均数(即期望值)对于两个人来说都是80分,但他们的成绩分布却完全不同,就像图3-10所示的这样。
图3-10 虽然两个学生的平均分都是 80,但他们成绩的方差完全不同
如果我们用方差来衡量他们考试成绩的分散程度,可以发现第一个人的方差要比第二个人大得多。因为第一个人的分数相对较分散,有些得了60分,有些得了100分,离平均分数的距离很远;而第二个人的分数相对集中,离平均分数的距离很近,因此方差就很小。
另外一个例子是比较两个投资组合的风险程度。如果一个投资组合的回报率波动较大,则它的方差就会比较大,代表着该组合的风险程度较高;反之,如果回报率波动较小,则其方差也会较小,表示该组合的风险程度较低。
因此,方差可以用来衡量数据的分散程度,对于统计学和金融领域的研究具有重要的应用价值。
为了帮助大家更好地理解方差的概念,请大家按照前言中的方法录制一个长度约为2分钟的短视频,介绍什么是方差。
可以参考的ChatGPT提示词如下。
“请介绍一下什么是方差。”
“请用通俗易懂的语言,结合生活中的例子,介绍一下方差的概念。”
为了让大家可以用代码的形式学习方差的概念,接下来大家可以让ChatGPT生成示例代码,并在Colab新建一个Notebook文件运行这些代码。
要让ChatGPT生成代码,可以参考的提示词如下。
“请给出使用Python计算两组数据不同方差的示例代码,需要可视化。”
协方差(Covariance)是用来衡量两个随机变量之间的关系强度和方向的统计量。它描述两个变量的联合变化程度,即当一个变量的值发生改变时,另一个变量的值会如何变化。
协方差的公式为:
其中,X和Y分别表示两个随机变量,μX和μY分别表示X和Y的均值,E[] 表示期望运算符。
协方差可以取任意实数值,正数表示两个变量正相关,负数表示两个变量负相关,而零则表示两个变量不相关。
需要注意的是,协方差只是一个度量两个随机变量之间线性关系的指标,它并不能说明因果关系或者非线性关系。此外,协方差还受到两个变量尺度的影响,因此在比较不同数据集之间的协方差大小时,需要进行标准化处理,得到相关系数。
下面我们来看一个通俗易懂的例子。假设你在开一家小店,出售糖果和饮料两种商品。你想知道这两种商品的销售情况是否有关联,即如果一种商品销售量增加了,另一种商品的销售量是否也会随之增加或减少,就像图3-11所示的这样。
图3-11 协方差可以告诉我们,糖果和饮料的销量之间是否有关联
为了回答这个问题,你开始记录每天的销售数据。例如,当天卖出了100包糖果和50瓶饮料。第二天,你卖出了120包糖果和60瓶饮料。第三天……以此类推。在这个过程中,你收集到了每天糖果和饮料的销售量,得到了两个变量:X表示糖果销售量,Y表示饮料销售量。
现在,你想知道这两个变量之间是否存在关系。你计算了一下这两个变量的协方差,并发现它的值是正数,说明这两个变量呈正相关关系。也就是说,当糖果销售量增加时,饮料销售量也会随之增加,反之亦然。
具体而言,如果某一天糖果销售量比平均值高,那么很可能这一天饮料销售量也比平均值高;如果某一天糖果销售量比平均值低,那么很可能这一天饮料销售量也比平均值低。这就是协方差的作用,它可以帮助我们了解两个变量之间的联系,从而更好地做出决策。
为了帮助大家更好地理解协方差的概念,请大家按照前言中的方法录制一个长度约为2分钟的短视频,介绍什么是协方差。
可以参考的ChatGPT提示词如下。
“请介绍一下什么是协方差。”
“请用通俗易懂的语言,结合生活中的例子,介绍一下协方差的概念。”
为了让大家可以用代码的形式学习协方差的概念,接下来大家可以让ChatGPT生成示例代码,并在Colab新建一个Notebook文件运行这些代码。
要让ChatGPT生成代码,可以参考的提示词如下。
“请给出使用Python计算协方差的示例代码,需要可视化。”