购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.12 信息论中的交叉熵

信息论是一门研究信息传输、编码和存储的学科。它涉及如何量化信息、如何在通信信道上传输信息,以及如何最大限度地利用有限的带宽和存储资源等问题。信息论主要关注如何通过信息编码来解决通信中的噪声、干扰和失真等问题,以便实现高效、可靠的信息传输。信息论是现代通信领域的基础理论之一,在计算机科学、工程技术、物理学、统计学、生物学等领域都得到了广泛的应用。

而交叉熵(Cross-Entropy)是在信息论和机器学习中经常用到的概念,它通常用于度量两个概率分布之间的差异性。

在机器学习中,我们通常使用交叉熵来比较模型输出的预测结果和真实的标签之间的差异,从而评估模型的表现。一个好的分类模型应该能够使其预测的分布与真实的标签分布越接近,因此交叉熵越小,说明模型的预测结果越接近真实值。

更具体地说,假设我们有一个分类问题,其中每个样本都属于K个类别中的一个。对于第i个样本,真实标签为y i ,模型的预测概率分布为p i 。那么,第i个样本的交叉熵可以表示为:

其中,y i,j 表示第i个样本是否属于第j个类别的one-hot编码,p i,j 表示模型预测该样本属于第j个类别的概率。整个数据集的交叉熵可以表示为每个样本交叉熵的平均值。

下面我们用生活中的例子来进行理解。假设你去书店买书,但是你只知道书的类别,比如小说、音乐、美术等。你希望买到一本小说,于是你开始选择,并且对每一本书都有一个预判,认为它可能是小说的概率是多少。最后,你选定了一本书并购买了它。

图3-21 我们预测的结果与真实标签差异越大,则交叉熵也就越大

在这个过程中,你的大脑就像一个分类模型,对每一本书都进行了预测,其中包括该书属于哪个类别的概率,比如它是小说的概率是多少、是音乐的概率是多少、是美术的概率是多少等。而每本书实际的类型则相当于真实标签。

接下来,我们将你的思考过程看作一个分类模型,然后计算其预测结果和真实标签之间的差异性,即计算交叉熵。如果你购买的书本身就是一本小说,那么预测结果与真实标签完全相同,交叉熵就会非常小;如果你购买的书不是一本小说,那么预测结果和真实标签之间就会有一些差异,交叉熵就会变大,就像图3-21所示的这样。

从这个例子中可以看出,交叉熵是用来衡量模型预测结果和真实标签之间接近程度的一种指标。在机器学习中,我们通常使用交叉熵来优化模型的参数,使得模型能够更好地拟合数据,并且预测结果与真实标签越接近。

原理输出3.21

为了帮助大家更好地理解交叉熵的概念,请大家按照前言中的方法录制一个长度约为2分钟的短视频,介绍什么是交叉熵。

小贴士

可以参考的ChatGPT提示词如下。

“请介绍一下什么是交叉熵。”

“请用通俗易懂的语言,结合生活中的例子,介绍一下交叉熵。”

实操练习3.21

为了让大家可以用代码的形式学习交叉熵的概念,接下来大家可以让ChatGPT生成示例代码,并在Colab新建一个Notebook文件运行这些代码。

小贴士

要让ChatGPT生成代码,可以参考的提示词如下。

“请用Python演示什么是交叉熵,并进行可视化。” O00onKgr40EUTfhd0DzHmX1FGJ8HJ1aL7O0haCLH9dNQPgQNxNFTV5vhaaTar9HM

点击中间区域
呼出菜单
上一章
目录
下一章
×