购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
数学基础

一、线性代数

线性代数在人工智能领域具有基础性支撑作用,其理论体系以向量、向量空间(又称“线性空间”)、线性变换及有限维线性方程组为核心研究对象。在机器学习及深度学习技术实现过程中,矩阵运算、特征值分解与奇异值分解等数学工具具有重要应用价值。本部分将重点解析线性代数的基本定义与核心理论框架,致力于为读者构建系统化的知识体系。

(一)向量与向量运算

向量作为线性代数的基本数学对象,主要用于表征具有方向与模长的物理量,其标准表示法采用小写字母加箭头符号(如 ),在解析几何中则常采用坐标表示形式[如 假设向量 向量 与常数C,则向量的运算如下。

1.向量加法

向量间对应分量相加(式3-1)。

2.向量减法

向量间对应分量相减(式3-2)。

3.向量数乘

常数与向量的乘积,用于向量的缩放(式3-3)。

4.向量点积

两个向量的点积是将它们的对应分量相乘,然后将结果相加(式3-4)。

注意,两个向量的点积结果是标量。

5.向量叉积

两个向量的叉积是一个新的向量,它垂直于原来的两个向量。叉积的模等于两个向量长度的乘积与它们之间夹角的正弦的乘积(式3-5)。叉积的方向由右手定则确定。

在人工智能技术实现过程中,向量作为基础数学工具,主要应用于高维数据特征表征及文本嵌入表示等场景。基于向量空间运算技术,可对数据集实施加权处理、线性组合等数学操作,这些方法为机器学习算法模型的参数优化与特征提取提供了数学基础支撑。

例1: 给定向量 计算它们的点积。

解:

(二)矩阵与矩阵运算

矩阵作为线性代数的重要数学结构,本质上是向量在矩形阵列中的有序排列,其元素由复数或实数构成,标准表示法采用大写字母(如 A )。若给定矩阵 A B 及常数C 0 ,则矩阵的运算如下。

1.矩阵加法

矩阵间对应分量相加(式3-6)。

注意:这两个矩阵的大小相同。

2.矩阵减法

矩阵间对应分量相减(式3-7)。

注意:这两个矩阵的大小相同。

3.矩阵数乘

矩阵数乘是常数与矩阵的乘积(式3-8)。

4.矩阵乘法

A 是m×p的矩阵, B 是p×n的矩阵,那么m×n的矩阵 C 称为矩阵 A B 的乘积,记作 C = AB ,如 A 的大小是3×3, B 的大小是3×2,见式3-9。其中,矩阵 C 的第 i 行第 j 列元素等于矩阵 A 的第 i 行元素与矩阵 B 的第 j 列对应元素乘积之和,见式3-10。

5.矩阵转置

将矩阵 A 的行与列互换,得到的新矩阵称为 A 的转置矩阵,记作 A T 。转置后的关系满足 其中, i j 分别是矩阵 A 行与列的序号。

例2: 矩阵 计算 AB A T

解:

6.逆矩阵

对于 n 阶方阵 A ,若存在同阶方阵 B 满足 AB = BA = I I 表示单位矩阵),则称矩阵 A 具有可逆性,此时矩阵 B 定义为 A 的逆矩阵,记作 A - ¹( B = A - ¹)。

7.行列式

行列式是方阵的一个重要数值特征,记作| A |或det( A ),行列式公式见式3-11。

其中 A 的大小为 n × n k 1 k 2 ,…, k n 是将序列1,2,…, n 的元素次序交换 k 次所得到的一个序列,Σ表示对 k 1 k 2 ,…, k n 遍历1,2,…, n 的一切排列求和。

8.特征值与特征向量

对于 n 阶方阵 A ,若存在非零向量 v 及标量λ(实数或复数)满足 A νλν=,则称λ为矩阵 A 的特征值,向量 v 称为对应于λ的特征向量。

例3: 给定矩阵 求其特征值和特征向量。

解:特征方程如下。

特征值λ 1 =2,λ 2 =4。

对于λ 1 =2,解 得特征向量

对于λ 2 =2,解 得特征向量

9.其他运算

在基础运算体系之外,矩阵运算还包含幂运算、特征分析(含特征值与特征向量)及奇异值分解等深度运算方法,这些方法在矩阵理论构建与工程实践领域具有重要理论价值与实践意义。

(三)向量空间与线性变换

向量空间指满足向量加法与标量乘法封闭性的向量集合。线性变换特指保持向量空间线性结构的映射关系,即满足线性组合保持性质的数学变换。在人工智能技术实现中,线性变换方法被广泛应用于数据降维处理与特征工程构建,典型应用包括主成分分析(principal component analysis,PCA)及奇异值分解(singular value decomposition,SVD)等算法。

线性代数对人工智能技术发展具有重要理论支撑作用,其不仅为机器学习算法与模型架构提供数学基础,更在技术演进过程中产生持续影响。通过向量空间理论、矩阵运算体系及线性变换原理等数学工具,构建了人工智能系统的核心数学框架。在机器学习实践领域,线性代数方法被系统应用于线性回归模型、逻辑回归分类器、支持向量机等经典算法的构建与训练过程,同时支撑神经网络的前向传播计算与反向传播优化机制。深度学习技术体系中的多维数据处理,尤其依赖矩阵运算与线性变换实现计算加速与算法优化。在计算机视觉、自然语言处理及数据挖掘等应用场景中,线性代数方法为图像特征提取、语义向量表示及高维数据分析等关键技术提供数学支撑,有效促进了人工智能技术的工程化应用。作为人工智能领域的基础数学工具,线性代数的持续研究与应用深化将持续推动相关技术的创新发展。

二、概率论

概率论是人工智能领域中的重要组成部分,为有效应对不确定性与随机性挑战提供了坚实的数学工具支撑。在人工智能研究中,特别是在机器学习与数据挖掘等关键领域,概率论被深入且广泛地应用于模型的构建、参数的优化估计及不确定性推理的系统化处理,典型应用包括马尔可夫链、隐马尔可夫模型、朴素贝叶斯分类器及蒙特卡洛模拟算法等。本部分旨在系统阐述概率论的基本概念与核心原理,为读者构建完整的理论框架基础,从而能够更加全面深入地理解和掌握其在人工智能领域的实际应用与技术实现。

(一)概率论的基本概念

1.随机事件与样本空间

在随机试验中,将可能发生的某个结果或其集合称为随机事件,而将所有可能结果的集合称为样本空间。例如,在投掷一枚六面体骰子的试验中,每个基本结果(1,2,…,6)为一个基本事件,所有基本事件构成的集合则构成该试验的样本空间。

2.概率的定义与性质

概率是描述随机事件发生可能性程度的量化指标,其取值介于0和1之间。概率具有以下性质。

(1)非负性 对于事件 A P A )≥0。

(2)规范性 对于样本空间 S P S )=1。

(3)可加性 对于任意两个互斥事件 A B P A )+ P B )=1。

3.条件概率与独立性

(1)条件概率 指在某一事件 B 已发生的条件下,事件 A 发生的概率,用 P A | B )表示。其计算公式如式3-12。

其中, P AB )表示事件 A B 同时发生的概率(又称联合概率), P B )表示事件 B 发生的概率。

(2)独立性 若两个事件 A B 互不影响,满足 P AB )= P A P B ),则称事件 A B 相互独立。独立性的本质特征在于任一事件的发生概率不改变另一事件的发生概率。该性质在现实问题中具有广泛应用,如连续抛掷两枚质地均匀的硬币时,第一次抛掷结果与第二次抛掷结果相互独立。

4.贝叶斯公式

在已知结果 A 的条件下,反推原因 B 的概率(式3-13)。

其中, P A | B )表示在事件 B 发生的情况下,发生事件 A 的概率(又称后验概率), P B | A )表示在事件 A 发生的情况下,发生事件 B 的概率(又称似概率), P B )表示事件 B 发生的概率。

例4: 设两台车床加工同类型零件共计100件,具体加工数据:①第一台车床产量:合格品30件,次品5件;②第二台车床产量:合格品与次品合计65件(具体质量分布未知)。定义随机事件 A 为“从全部产品中随机抽取一件为合格品”,事件 B 为“随机抽取的产品产自第一台车床”。

求: P A ), P B ), P AB ), P A | B )。

解:

5.随机变量与分布

随机变量是定义在样本空间上的实值函数,用于量化和描述随机事件的结果。根据取值范围的不同,随机变量可分为两大类:离散型随机变量和连续型随机变量。离散型随机变量的取值为有限个或可列无穷多个,如投掷骰子的点数;而连续型随机变量的取值则为某个区间内的任意实数,如人体的身高、体重等,这些量值可在连续范围内变化。

在准确描述随机变量的分布特性时,通常采用分布函数或概率密度函数作为分析工具。具体来说,对于离散型随机变量,通常使用概率分布表或概率质量函数来阐述其概率分布特征;对于连续型随机变量,则通过分布函数或概率密度函数来完整表征其概率分布规律。需要强调的是,连续型随机变量的概率密度函数在某一区间上的积分值,等于该区间内随机变量取值的概率,这一数学特性为实际应用提供了理论基础。

6.常见的分布

在概率论中,存在多种典型概率分布,包括二项分布、泊松分布、正态分布等。这些分布在人工智能领域具有重要应用价值。如在二分类问题建模中,通常假设正负样本的生成机制遵循伯努利分布;在自然语言处理领域,词频统计常采用泊松分布进行建模分析;而在深度学习框架中,诸多激活函数与损失函数的设计均基于正态分布的数学特性。

(二)随机变量的数字特征

1.期望

期望是随机变量取值的概率加权平均值,用于表征随机变量的集中趋势。对于离散型随机变量 X ,其期望 E X )的定义如式3-14所示;对于连续型随机变量 X ,其期望 E X )的定义如式3-15所示。

其中, x i 是随机变量 X 可能的值, p x i )则是 x i 对应的概率。

其中, f x )是随机变量 X 对应的概率密度函数。

2.方差

方差是随机变量 X 与其期望 E X )之差的平方的期望,用于描述随机变量的离散程度(式3-16)。

3.协方差

协方差是度量两个随机变量 X Y 之间线性相关程度统计指标。该统计量表征当一个变量发生偏离时,另一变量协同变化的趋势。协方差的计算结果可为正数、负数或零,分别反映两变量间存在正向线性关联、负向线性关联或无线性相关性。协方差的表达式如式3-17所示。

4.相关系数

相关系数是协方差与两随机变量标准差乘积的比值,用于量化表征随机变量 X Y 间的线性关联强度。当该系数绝对值趋近于1时,表明变量间存在较强的线性关联;当绝对值趋近于0时,则反映变量间线性关联程度较低。相关系数的表达式如式3-18所示。

其中, Cov X Y )表示 X Y 的协方差, D X )和 D Y )分别是 X Y 的方差。

概率论在人工智能领域具有重要基础性地位,为处理复杂不确定性问题、优化决策过程及构建高效算法奠定了数学基础。作为处理不确定性与随机性的核心数学工具,概率论为人工智能系统构建了坚实的理论框架。在机器学习领域,概率论广泛应用于数据不确定性建模、决策过程优化、预测模型构建及模型性能评估等关键环节。基于贝叶斯定理、马尔可夫决策过程等核心理论,概率论使机器学习算法在复杂不确定环境下能够实现更高精度的鲁棒决策。此外,概率论有效推动了自然语言处理与计算机视觉等关键领域的技术突破,促进了人工智能技术的广泛应用。总体而言,概率论作为人工智能技术的基础理论支撑,为其多领域纵深发展提供了持续的理论支持。

三、数理统计

数理统计是建立在概率论基础上的应用数学分支,主要研究随机现象大规模观测数据中呈现的统计规律。该学科体系通常包含描述统计学与推断统计学两大核心组成部分。在人工智能领域,数理统计不仅为揭示数据内在规律提供方法论支撑,还能构建有效预测模型,更可为不确定性环境下的智能决策提供量化分析框架。

(一)数理统计的基本概念

1.总体与样本

总体是指研究目标所涉及的全体观测对象构成的完整群体,样本则是通过科学抽样方法从总体中选取的具有代表性的观测数据子集。在实际研究过程中,由于客观条件限制往往难以获得总体全部数据,此时可借助样本数据的统计分析来推断总体特征,这种由局部推及整体的方法论构成了统计推断的理论基础。

2.参数与统计量

参数是描述总体特征的量化指标,统计量则是反映样本特征的数字特征。总体参数通常属于未知待估量,而样本统计量可基于样本观测数据计算得出,这种参数估计过程构成了统计推断的核心内容。

3.抽样分布

统计量的抽样分布指通过重复抽样方法获取样本并计算相应统计量时,该统计量所有可能取值的概率分布。

4.点估计与区间估计

点估计是对参数的单一估计值,如样本均值或样本比例;区间估计是对参数的估计范围,如置信区间。

5.大数定律与中心极限定理

(1)大数定律 随着样本量的增加,样本的平均值依概率收敛于总体的期望值。

(2)中心极限定理 在满足独立同分布的条件下,大量相互独立的随机变量之和经标准化后,其分布近似于标准正态分布。

(二)数理统计的主要假设检验方法

假设检验是统计学领域中一种重要的统计推断方法,旨在判断样本与样本之间、样本与总体之间的差异是由抽样误差引起,还是存在本质性差异。其基本原理在于,首先针对总体参数提出明确的统计假设,继而通过抽样数据构建检验统计量,对预先设定的假设进行验证,最终依据小概率原理做出接受或拒绝原假设的决策。

1. Z 检验

Z 检验是基于正态分布理论的参数检验方法,用于检验单个样本的平均数与已知总体均值是否存在统计学差异,或比较两个独立样本均值间的统计学差异。 Z 检验主要用于大样本(通常不少于30)且样本数据满足正态分布或接近正态分布的情形,验证样本均值与总体均值或两个样本均值之间的差异是否显著。若 Z 值的绝对值小于或等于标准正态分布表中对应显著性水平(如0.05或0.01)的临界值时,则接受原假设,认为两个样本均值之间不存在差异,或样本均值与总体均值之间不存在显著性差异;若 Z 值的绝对值大于标准正态分布表中对应显著性水平(如0.05或0.01)的临界值时,则拒绝原假设,认为两个样本均值之间存在差异,或样本均值与总体均值之间存在显著性差异。单样本 Z 检验与双独立样本 Z 检验的计算公式分别见式3-19与式3-20。

其中, 表示样本均值, u 0 为总体均值,σ为总体标准差, n 为样本数量。

其中, 分别为两个样本的均值, u 1 u 2 分别为两个总体的均值,σ为共同的总体标准差, n 1 n 2 分别为两个样本的数量。

2. t 检验

t 检验是用于比较样本均值与特定总体均值或两个独立样本均值之间差异是否具有统计学意义的方法。当计算所得 t 值对应的 P 值小于预先设定的显著性水平(如0.05或0.01)时,应拒绝原假设,判定组间均值存在显著差异;当 P 值大于等于显著性水平时,则接受原假设,认为组间均值差异无统计学意义。该方法主要适用于总体标准差未知且样本量较小(通常样本量<30)的研究场景。单样本 t 检验与双独立样本 t 检验的计算公式分别见式3-21与式3-22。

其中, 表示样本均值, u 0 为总体均值, S 为样本标准差, n 为样本数量。

其中, 分别为两个样本的均值, S 1 S 2 分别为两个样本的标准差, n 1 n 2 分别为两个样本的数量。

例5: 某中药研究所为评估新型中药制剂对高血压的干预效果,采用自身对照研究设计,纳入9例原发性高血压患者作为受试对象。所有受试者分别在治疗前及连续服药1个月后进行血压测量(以舒张压为观测指标)。表3-1呈现了9例受试者治疗前后舒张压测量值(单位:mmHg)。请采用配对样本 t 检验方法,通过分析治疗前后血压变化的统计学意义,评估该中药制剂降压疗效的有效性。

表3-1 9名患者治疗前后的舒张压数据(mmHg)

解:

做出以下假设:

零假设(H 0 ):该中药制剂对高血压患者舒张压的干预效应无统计学差异,即治疗前后舒张压差值的总体均值为0。

对立假设(H 1 ):该中药制剂对高血压患者舒张压具有干预效应,即治疗前后舒张压差值的总体均值不为0。

计算 t 值与 P 值:

若以显著性水平α=0.05为临界,查看 t 值表,得到 t 值对应的临界值t cri =2.306。显然, t >t cri P <0.05,表明结果拒绝H 0 ,接受H 1 ,即该中药制剂对高血压患者的舒张压有显著干预效果。

3.卡方检验

卡方检验(χ 2 检验)是用于分析分类变量间关联性的非参数检验方法,通过比较实际观测频数与理论期望频数的偏离程度,判断变量间是否独立。当计算所得χ 2 大于对应自由度的临界值,或 P 值小于预设显著性水平(如0.05或0.01)时,应拒绝原假设,认为变量间存在统计学关联;当χ 2 小于临界值且 P 值大于预设显著性水平(如0.05或0.01)时,则接受原假设,认为组间的样本率或分类变量间不存在显著差异。其基本公式如式3-23所示。

其中, O i 为第 i 个类别的观测频数, E i 为基于原假设计算出的期望频数。

4. F 检验

F 检验是用于检验两个独立正态总体方差是否齐同(方差齐性检验),或在回归分析中评估多个自变量对因变量的联合解释效力(模型显著性检验)的统计方法。当计算所得 F 值大于对应自由度下的临界值时,应拒绝原假设,认为总体方差不满足齐性要求或回归模型具有统计学意义;当 F 值小于等于临界值时,则接受原假设,组间的方差不存在显著差异或模型无效。该方法的本质是通过比较方差估计量的比值进行统计推断。在进行方差齐性检验时,假设存在两个独立样本分别来自正态总体 X 1 X 2 ,其样本方差分别为 F 值的计算公式如式3-24所示。

其中, 是较大的方差, 是较小的方差,以确保 F 值>1,以便后续的分析。

数理统计在人工智能领域具有广泛的应用价值并产生重要影响,其作为机器学习算法的理论基础,为数据挖掘、模式识别、自然语言处理等关键技术提供方法学支撑。基于数理统计原理构建的人工智能系统,能够通过数据特征提取、模型参数估计及假设检验等过程,从海量数据中解析潜在规律,进而建立预测模型并完成数据驱动的决策分析。具体而言,线性回归、朴素贝叶斯分类、K均值聚类等统计学习方法,已成为推荐系统、计算机视觉、语音识别等应用场景的核心技术框架。在算法研发层面,数理统计通过假设检验、置信区间估计等方法,为模型性能评估与优化提供量化依据,有效提升系统的预测精度与运行稳定性。当前大数据技术背景下,统计学习理论与深度学习技术的融合创新,不仅推动着智能算法的发展演进,更在医疗健康、金融科技、智能制造等领域实现技术转化,促进产业数字化转型进程。 SM0QRtIQ6t1kCwZB2TZbnuiJCae2QlRL0H8zxQz1ylyqfahQQ3cGkWl4lkIBoiRO

点击中间区域
呼出菜单
上一章
目录
下一章
×