购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.11 例子:主成分分析

主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它可以将具有相关性的高维数据转化为线性不相关的低维数据。所谓“主成分”,指的是能够最大化原始数据方差的方向或向量。在PCA 中,我们通过找到这些主成分来实现数据降维。

具体来说,PCA将一个包含n个样本的m维数据集转化为一个新的m维坐标系下的n个点,使得第一个主成分对应的坐标轴方向是原始数据中方差最大的方向,第二个主成分对应的方向是与第一个主成分正交且方差次大的方向,以此类推。在这个新的坐标系下,数据点的变化主要由前几个主成分描述,后面的主成分则描述更小的变化量。

使用PCA可以有效地去除数据中的噪声和冗余信息,同时保留原始数据的关键特征。因此,PCA被广泛应用于信号处理、图像处理、模式识别、数据压缩等领域。

图2-21 要分析众多顾客购买商品的关键因素,就可以用到主成分分析

现在我们用一个通俗易懂的例子来介绍主成分分析中涉及的线性代数知识——假设我们有一个超市,里面售卖各种商品。为了分析顾客的购物习惯,我们需要收集每个顾客购买商品的数据,包括他们购买的商品种类、数量和金额等信息。这些数据可以表示为一个矩阵X,其中每一行表示一个顾客的购买情况,每一列表示一种商品的信息。可以想象,当顾客人数众多时,这个矩阵也非常庞大,就像图 2-21 所示的这样。

现在,我们希望通过主成分分析来发现顾客购买商品时的关键因素,以便改进营销策略。在进行主成分分析之前,我们需要对原始数据进行标准化或中心化处理。例如,我们可以将每一列的数据都减去该列均值,使得每一列数据的平均值为0。这样做的目的是消除不同商品之间数量和金额的差异。

接下来,我们需要找到与顾客购买商品最相关的主成分。这可以通过求解矩阵X的协方差、矩阵的特征向量和特征值来实现。特别地,我们需要找到具有最大特征值的特征向量,也就是数据中方差最大的方向。这个方向对应的特征向量就是第一个主成分。

在上述例子中,涉及线性代数中的矩阵、向量、矩阵乘法、特征向量和特征值的概念。通过对原始数据进行标准化或中心化处理,我们将数据集转换为一个零均值的矩阵,从而使数据包含的信息更加精确。然后,通过求解协方差矩阵的特征向量和特征值,我们可以确定哪些方向是最相关的,从而确定前几个主成分。最后,我们可以将原始数据投影到前几个主成分上,得到一个新的低维数据集,从而实现数据降维和关键因素提取的目的。

原理输出2.21

为了帮助大家更好地理解主成分分析的概念,请大家在ChatGPT的帮助下,录制一个长度约为2分钟的短视频,介绍什么是主成分分析。

小贴士

可以参考的ChatGPT提示词如下。

“请简要介绍什么是主成分分析。”

“请结合生活中的例子,介绍主成分分析的概念。”

“假设你是一位大学老师,请用轻松易懂的语言向学生讲解主成分分析。”

实操练习2.21

为了让大家可以用代码的形式学习主成分分析,接下来大家可以让ChatGPT生成代码演示,并在Colab新建一个Notebook文件运行这些代码。

小贴士

要让ChatGPT生成代码,可以参考的提示词如下。

“请用Python演示主成分分析,需要可视化。”

“用Python可视化的方法演示主成分分析。”

线性代数为理解神经网络的结构和运作提供了基础,而概率与信息论则在处理不确定性和数据中的噪声时具有重要作用。下一章的内容将为读者进一步拓宽视野,让我们一同探索概率与信息论在深度学习中的应用吧。 O00onKgr40EUTfhd0DzHmX1FGJ8HJ1aL7O0haCLH9dNQPgQNxNFTV5vhaaTar9HM

点击中间区域
呼出菜单
上一章
目录
下一章
×