



·在机器学习领域,向量是一维的数字数组,而矩阵则是二维的数字数组。机器学习模型的输入和输出通常用向量或矩阵来表示。例如,在多层模型中,每一层的输入和输出都是以向量或矩阵的形式来表示的。图像是与像素颜色值对应的二维数字数组,因此可以用矩阵来表示。
·一个 n 维向量可以被看作 R n 空间中的一个点。所有模型都可以视为将点从输入空间映射到输出空间的函数。模型设计的目的是在输出空间中能够更容易地解决目标问题。
·两个向量 x =[ x 1 x 2 … x n ]和 y =[ y 1 y 2 … y n ]的点积是一个标量,即 x · y = x 1 y 1 + x 2 y 2 +…+ x n y n 。这是衡量向量相似性的一个指标。点积在机器学习中被广泛使用。例如,在监督式机器学习中,我们训练模型以使其输出尽可能与输入样本点集(也称为训练数据)的已知输出相似,在这里,点积的某些变体常用于衡量模型输出与已知输出之间的相似度。
如果两个向量的点积为零,则它们是正交的。这意味着向量之间没有相似性,并且彼此独立。
向量与其自身的点积是该向量长度(大小)的平方,即
。
·给定一组向量 x 1 , x 2 ,…, x n ,它们的加权和 a 1 x 1 + a 2 x 2 +…+ a n x n (其中系数 a 1 , a 2 ,…, a n 是任意标量)被称为线性组合。特别地,如果系数 a 1 , a 2 ,…, a n 非负,并且总和为1,则该线性组合被称为凸组合。
如果存在一组不全为零的系数 a 1 , a 2 ,…, a n ,使得线性组合为零向量,即其所有元素都为零,则向量 x 1 , x 2 ,…, x n 被称为 线性相关 。相反,如果只有当每个系数都为零时,才能使得线性组合为零向量,则这些向量被称为 线性无关 。
·矩阵和向量的一个重要应用是求解线性方程组,可以用矩阵向量的形式将其表示为 Ax = b ,我们需要找到满足该方程的未知向量 x 。当且仅当矩阵 A 可逆时,该方程组才有精确解。这意味着 A 是一个方阵(行数等于列数),并且它的行向量线性无关。因此,它的列向量也是线性无关的,反之亦然。如果行和列都是线性无关的,那么 A 的行列式必然不为零。因此,行/列的线性无关和行列式不为零是等价条件。只要满足其中一个条件,线性方程组就有精确且唯一的解。
在实际中,这种要求往往无法满足,我们通常会遇到超定或欠定系统。在这种情况下,摩尔-彭若斯伪逆提供了一种最佳逼近方法。几何上,摩尔-彭若斯方法生成的是由矩阵 A 中列向量构成的向量空间中距离 b 最近的点。等价地,摩尔-彭若斯的解 x ∗ 为矩阵 A 中列向量构成的向量空间中距离 b 最近的点。
·对于一个方阵
A
,当且仅当
时,我们说
λ
是
A
的一个特征值(一个标量),
是
A
的一个特征向量(一个单位向量)。物理上,特征向量
是一个单位向量,它的方向在经过矩阵
A
的变换后不会改变,但其长度会通过标量比例因子
λ
(特征值)进行缩放。
一个 n × n 矩阵 A 有 n 个特征值/特征向量对,特征值不一定都互不相同。对应于不同特征值的特征向量是线性无关的。如果矩阵 A 是对称的,即满足 A T = A ,那么对应于不同特征值的特征向量是正交的。
旋转矩阵也被称为正交矩阵,是一种行向量之间相互正交,列向量之间也相互正交的矩阵。一个正交矩阵 R 满足方程 R T R = I ,其中 I 是单位矩阵。特别是,当矩阵 A 是一个旋转矩阵 R 时,其中一个特征值总是1,对应的特征向量即为旋转轴。
具有 n 个线性无关特征向量的矩阵 A 可以被分解为 A = SΛS -1 ,其中, S =[ e 1 e 2 … e n ]是以 A 的特征向量为列的矩阵,而 Λ 是一个对角矩阵,其对角线上的元素是 A 的特征值。这种分解称为矩阵对角化,它为求解线性方程组提供了一种数值稳定的方法。
·一个方形对称矩阵
A
可以用其特征向量和特征值表示为
,这被称为矩阵
A
的谱分解。
[1]
数学符号∀代表“所有”。因此,
表示“在
n
维空间中的所有向量
y
”。