机器学习及其应用最新章节_汪荣贵著

2.5 习题

（1）现有一组某市的房价与其位置数据如表2-12所示，其中 D 表示房屋到市中心的直线距离，单位为km， R 表示房屋单价，单位为元/m ² 。试根据以下数据使用最小二乘估计确定房价与其位置之间的大致关系。

表2-12 房价与其位置数据表

（2）假设某学校男生的身高服从正态分布 N （ μ ， σ ² ），现从全校所有男生中随机采样测量得到身高数据如表2-13所示，试通过表中数据使用最大似然估计法估计 μ 和 σ ² 的取值。

表2-13 身高数据表（单位：cm）

（3）假设某学校男生的身高服从正态分布 N （ μ ， σ ² ），上一次测试时得到身高均值的估计值为172cm，方差为36，故在本次测试前，以0.7的概率相信该校男生身高服从 N （172，36），试根据表2-13中数据和最大后验估计法确定 μ 和 σ ² 的估计值。

（4）试用梯度下降算法求解无约束非线性规划问题

其中， X =（ x ₁ ， x ₂ ） ^T ，要求选取初始点 X ⁰ =（0，3） ^T ，终止误差 ε =0.1。

（5）若要使用表2-12中的数据构造一个用于预测房屋价格与房屋到市区距离之间关系的线性模型，其中模型优化过程使用梯度下降算法，试取任意初始点开始迭代，步长取0.05，计算前两次迭代的结果。

（6）与共轭梯度法相比较，梯度下降法有何缺陷？共轭梯度法为何能避免这种缺陷？

（7）利用共轭梯度算法求解无约束非线性规划问题

其中， X =（ x ₁ ， x ₂ ） ^T ，取迭代起始点为 X ⁰ =（1，1） ^T 。

（8）若要使用表2-12中的数据构造一个用于预测房屋价格与房屋到市区距离之间关系的线性模型，其中模型优化过程使用共轭梯度法，试取任意初始点开始迭代，计算前两次迭代的结果。

（9）使用牛顿法求解无约束非线性规划问题

min f （ X ）=（ x ₁ - x ₂ ） ³ +（ x ₁ +3 x ₂ ） ²

其中， X =（ x ₁ ， x ₂ ） ^T ，取迭代起始点为 X ⁰ =（1，2） ^T 。

（10）牛顿法存在哪些缺陷？拟牛顿法为何能克服这些缺陷？

（11）使用拟牛顿法求解无约束非线性规划问题

min f （ X ）=（4- x ₂ ） ³ +（ x ₁ +4 x ₂ ） ²

其中， X =（ x ₁ ， x ₂ ） ^T ，取迭代起始点为 X ⁰ =（2，1） ^T 。

（12）证明：当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

（13）与梯度下降方法相比，随机梯度方法为何能降低算法的时间复杂度？

（14）小批量随机梯度下降法与随机梯度下降法有何区别？这样设计小批量随机梯度下降法的原因是什么？

（15）证明：设 P （ Y | θ ）为观测数据的似然函数， θ ^（ ⁱ ^）（ i =1，2，…）为用EM算法得到的参数估计序列， P （ Y | θ ^（ ⁱ ^））（ i =1，2，…）为对应的似然函数序列，则 P （ Y | θ ^（ ⁱ ^））是单调递增的。

（16）蒙特卡洛方法的理论基础是什么？如何使用蒙特卡洛方法估计圆周率的取值？马尔可夫链蒙特卡洛方法有哪些具体应用？

（17）模型的正则化方法有哪些？它们分别是从什么角度出发对模型进行正则化的？

（18）在范数惩罚正则化中，使用 L ¹ 范数惩罚可以达到什么样的约束效果？使用 L ² 范数惩罚又能达到什么样的约束效果？能够达到这些约束效果的原因是什么？

（19）对于图像 X ，假设在以图像中心点为原点建立的坐标系中，某个像素点的坐标为（ x ， y ），试求将该图像顺时针旋转 θ 度后该像素点所对应的新的坐标。

（20）对抗样本的存在会对机器学习模型造成怎样的危害？对抗训练方法为何能提升模型的鲁棒性？