人工智能：现代方法·第4版（全2册）最新章节_斯图尔特·罗素著

资源与服务

本书由异步社区出品，社区（https://www.epubit.com/）为您提供相关资源和后续服务。

您还可以扫码右侧二维码，关注【异步社区】微信公众号，回复“e59810”直接获取，同时可以获得异步社区15天VIP会员卡，近千本电子书免费畅读。

配套资源

本书提供全书彩图、伪代码、各章的参考文献与历史注释及完整的参考文献。您可以扫描下方二维码，发送“59810”，添加异步助手，获取本书配套资源。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性，但难免会存在疏漏。欢迎您将发现的问题反馈给我们，帮助我们提升图书的质量。

当您发现错误时，请登录异步社区，按书名搜索，进入本书页面，单击“提交勘误”，输入勘误信息，单击“提交”按钮即可。本书的作者和编辑会对您提交的勘误进行审核，确认并接受后，您将获赠异步社区的积分。积分可用于在异步社区兑换优惠券、样书或奖品。

扫码关注本书

扫描下方二维码，您将会在异步社区微信服务号中看到本书信息及相关的服务提示。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议，请您发邮件给我们，并请在邮件标题中注明本书书名，以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频或者参与技术审校等工作，可以通过邮件与本书责任编辑联系（yanghailing@ptpress.com.cn）。

如果您来自学校、培训机构或企业，想批量购买本书或异步社区出版的其他图书，也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为，包括对图书全部或部分内容的非授权传播，请您将怀疑有侵权行为的链接通过邮件发给我们。您的这一举动是对作者权益的保护，也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是人民邮电出版社旗下IT专业图书社区，致力于出版精品IT图书和相关学习产品，为作译者提供优质出版服务。异步社区创办于2015年8月，提供大量精品IT图书和电子书，以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌，依托于人民邮电出版社的计算机图书出版积累和专业编辑团队，相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。

异步社区

微信服务号

图1-3 积木世界的场景。S hrdlu （Winograd, 1972）刚刚完成了一个命令——“找到一块比你所持有的积木块更高的积木块，并把它放进盒子里”

图2-16 表示状态及其之间转移的3种方法：（a）原子表示一个状态（如B或C）是没有内部结构的黑盒；（b）因子化表示状态由属性值向量组成，值可以是布尔值、实值或一组固定符号中的一个；（c）结构化表示状态包括对象，每个对象可能有自己的属性以及与其他对象的关系

图3-4 3棵部分搜索树，用于寻找从Arad到Bucharest的路线。已扩展节点用淡紫色和粗体字母表示；边界上已生成但未被扩展的节点用绿色表示；对应于这两种类型节点的状态集被称为已达。接下来可能生成的节点用虚线表示。注意，在最下面的树中，有一个从Arad到Sibiu再到Arad的环，这不可能是最优路径，因此搜索不应该从那里继续

图3-5 由图3-1中的罗马尼亚问题的图搜索生成的搜索树序列。在每一阶段，我们扩展边界上的每个节点，使用所有不指向已达状态的可用动作延伸每条路径。需要注意的是，在第三阶段，最高位置的城市（Oradea）有两个后继城市，这两个城市都已经有其他路径到达，所以没有路径可以从Oradea延伸

图3-6 以矩形网格问题为例说明图搜索的分离性质。边界（绿色）分离了内部（淡紫色）和外部（虚线）。边界是已达但尚未扩展的节点（及相应的状态）的集合；内部是已被扩展的节点（及相应的状态）的集合；外部是尚未到达的状态的集合。在（a）中，只有根节点被扩展。在（b）中，上面的边界节点被扩展。在（c）中，按顺时针顺序扩展根节点的其他后继节点

图3-8 简单二叉树上的广度优先搜索。每个阶段接下来要扩展的节点用三角形标记表示

图3-11 二叉树的深度优先搜索过程中，从开始状态A到目标M，共12步（从左到右，从上到下）。边界节点为绿色，用三角形表示下一步要扩展的节点。已扩展的节点为淡紫色，潜在的未来节点用模糊的虚线表示。边界中没有后继的已扩展节点（用非常模糊的线表示）可以丢弃

图3-13 二叉树上的迭代加深搜索的4次迭代（目标为M），深度界限从0到3。注意，内部节点形成了一条路径。三角形标记下一步要扩展的节点，边界为加粗轮廓的绿色节点，非常模糊的节点可被证明不可能是这种深度界限下的解的一部分

图3-13 二叉树上的迭代加深搜索的4次迭代（目标为M），深度界限从0到3。注意，内部节点形成了一条路径。三角形标记下一步要扩展的节点，边界为加粗轮廓的绿色节点，非常模糊的节点可被证明不可能是这种深度界限下的解的一部分（续）

图3-17 基于直线距离启发式函数 h _SLD 的贪心最佳优先树状搜索的各个阶段（目标为Bucharest）。节点上标有 h 值

图3-18 A ^* 搜索的各个阶段（目标为Bucharest）。节点上标有， h 值为图3-16中得到的到Bucharest的直线距离

图3-21 同一网格上的两种搜索：（a）A ^* 搜索，（b）加权A ^* 搜索，权重 W = 2。灰色线条表示障碍，紫色线是一条从绿色起始点到红色目标点的路径，较小的点是每次搜索到达的状态。在这个特定问题上，加权A ^* 搜索探索的状态数不到A*搜索探索的状态数的七分之一，找到的路径的代价只比最优代价大了5%

图3-23 使用RBFS搜索到Bucharest的最短路线的各个阶段。每次递归调用的 f _ limit 值标注在每个当前节点的上方，每个节点上都标有它的 f 代价。（a）沿着经过Rimnicu Vilcea的路径前进，直到当前最优叶节点（Pitesti）的值比最优备选路径（Fagaras）差。（b）递归回溯，被遗忘子树的最优叶节点值（417）被备份到Rimnicu Vilcea；接着扩展Fagaras，得到最优叶节点值450。（c）递归回溯，被遗忘子树的最优叶节点值（450）被备份到Fagaras；然后扩展Rimnicu Vilcea。这一次，因为最优备选路径（经由Timisoara）的代价至少为447，所以继续扩展Bucharest

图4-4 岭为爬山法带来困难的示意图。状态网格（蓝色圆点）叠加在从左到右上升的岭上，形成了一个彼此不直接相连的局部极大值序列。从每个局部极大值出发，所有可选动作都指向下坡。这样的拓扑在低维状态空间中很常见，例如二维平面中的点。但是在具有成百上千个维度的状态空间中，这种直观图并不成立，而且通常至少存在几个维度使得算法有可能漏掉岭和平台区

图4-7 对应于图4-6c中前两个亲本和图4-6d中第一个后代的8皇后状态。在杂交步中，丢弃绿色列，保留红色列。（图4-6中数字的解释：第1行是最下面一行，第8行是最上面一行）

图4-23 一维状态空间上LRTA ^* 的5次迭代。每个状态都标有 H ( s )，即到达目标的当前代价估计值，每个连接的动作代价为1。红色状态表示智能体的位置，每次迭代所更新的代价估计值以双圈标记

图5-4 三人博弈的博弈树的前三层，3个玩家为 A 、 B 、 C 。每个节点都标有3个玩家各自的效用值。最佳移动标示在根节点上

图5-10 使用蒙特卡罗树搜索（MCTS）选择移动的算法的一次迭代，该算法使用“应用于树搜索的置信上界”法（UCT）作为选择度量，此时已完成了100次迭代。（a）选择移动，沿着树一直向下，到标记为27/35（35次模拟中黑方赢了27次）的叶节点结束。（b）扩展所选节点并进行模拟，最终黑方获胜。（c）将模拟结果沿树反向传播

图6-6 图6-1中地图着色问题的部分搜索树

图6-7 带前向检验的地图着色搜索过程。首先赋值 WA = red；然后前向检验从其相邻变量 NT 和 SA 的域中删除red。赋值 Q = green后，从 NT 、 SA 和 NSW 的域中删除green。赋值 V = blue后，从 NSW 和 SA 的域中删除blue，此时 SA 没有合法值

图7-6 语句是智能体的物理结构，而推理是从旧结构构建新结构的过程。逻辑推理应当确保新结构所表示的部分世界确实能够从旧结构所表示的部分世界推得

图9-10 归结证明韦斯特有罪。每个归结步骤中，合一文字用加粗字体表示，带有正文字的子句用蓝底表示

图9-11 好奇心害死猫的归结证明。注意，在推导子句 Loves ( G ( Jack ), Jack )时使用了因子分解。还要注意，在右上角，合一 Loves ( x , F ( x ))和 Loves ( Jack , x )只有在变量标准化分离后才可以进行

图11-6 使用忽略删除列表启发式方法的规划问题的两个状态空间。底部平面以上的高度是一个状态的启发式得分；底部平面的状态是目标。由于不存在局部极小值，所以搜索目标很简单直接。图片来自（Hoffmann, 2005）

图11-9 可达集的语义示例。目标状态集用紫色阴影表示。黑色和红色箭头分别表示 h ₁ 和 h ₂ 的可能实现。（a）在状态 s 中HLA h ₁ 的可达集。（b）序列[ h ₁ , h ₂ ]的可达集。因为它与目标集相交，所以序列实现了目标

图11-10 具有近似描述的高层规划的目标达成。目标状态集用紫色阴影表示。对于每个规划将显示悲观（实线，浅蓝色）和乐观（虚线，浅绿色）可达集。（a）黑色箭头所指的规划的确达成了目标，而红色箭头所指的规划完全没有达成目标。（b）可能达成目标（乐观可达集相交的目标）但未必会达成目标（悲观可达集与目标不相交）的规划。该规划需要进一步细化，以确定它是否真的达成了目标

图13-4 （a）给定父节点（浅紫色区域中所示的 U _i ），节点 X 条件独立于它的非子孙节点（例如， Z _i _j ）。（b）给定它的马尔可夫毯（浅紫色区域），节点 X 条件独立于网络中的所有其他节点

图13-9 用于评估汽车保险申请的贝叶斯网络

图13-14 3-CNF语句的贝叶斯网络编码

图14-14 （a）红色曲线：除 t = 21和 t = 22为0外，其他观测都为5的观测序列的 Battery _t 期望值轨迹，采用简单高斯误差模型。绿色曲线：从 t = 21开始观测值维持在0的轨迹。（b）瞬时故障模型运行了同样的实验。瞬时故障处理良好，但持续故障导致对电池电量的过度悲观

图14-15 （a）一个显示建模电池传感器持续故障要求的传感器状态变量的动态贝叶斯网络片段。（b）上方曲线为对“瞬时故障”与“持续故障”的 Battery _t 的期望值轨迹，下方曲线为给定两个观测序列的 BMBroken 的概率轨迹

图14-18 N =10的雨伞动态贝叶斯网络的粒子滤波更新循环，显示每个状态的样本总体。（a）在时刻 t ，有8个样本表示 rain ，有2个样本表示。每个状态通过转移模型采样下一个状态向前传播。在时刻 t +1，有6个样本表示 rain ，有4个样本表示。（b）在时刻 t +1观测到。每个样本通过这个观测的似然来进行加权，权重如圆的大小所示。（c）从当前的集合中通过加权随机选择产生一个新的集合，共有10个样本，其中2个样本表示 rain ，8个样本表示

图14-21 （a）具有1000个粒子的标准粒子滤波算法的性能，在不同的灰尘持久性 p 下，显示与精确推断相比边际灰尘概率的均方根（RMS）误差。（b）Rao-Blackwellized粒子滤波（100个粒子）性能与真实情况的比较，包含精确的位置传感和噪声墙传感，灰尘是确定性的。数据是超过20次运行的平均值

图15-1 （a）在一阶逻辑的标准语义下，具有两个常量符号 R 和 J 以及一个二元关系符号的语言的全部可能世界的集合的部分成员。（b）数据库语义下的可能世界。常量符号的解释是固定的，每个常量符号都对应唯一的对象

图15-7 （a）上图：在澳大利亚艾利斯斯普林斯市记录的地震波形实例。下图：用于检测地震波到达时间的处理后的波形。蓝线是自动检测的地震波到达，红线是真正的地震波到达。（b）2013年2月12日朝鲜核试验地点估计：联合国CTBTO最新事件公报（左上角绿色三角形），NET-VISA（中间蓝色方块）。地下试验设施的入口（以“x”标记）距离NET-VISA的估计0.75公里。轮廓线显示NET-VISA的后验位置分布。图片由CTBTO筹备委员会提供

图16-3 选择 k 个选项中的最佳选项引起的不合理的乐观：我们假设每个选项的真实效用为0，但效用估计是单位正态分布（棕色曲线）。其他曲线展示了 k = 3、10和30时估计最大值的分布

图17-5 （a）俄罗斯方块游戏。位于顶部中心的T型块可以落在任何方向和任何水平位置。如果某一行被补全，则该行消失，上方的行向下移动，智能体得1分。下一块（这里是右上方的L形块）成为当前的一块，并出现一个新的下一块，从7种类型中随机选择。如果棋盘被填满，游戏结束。（b）俄罗斯方块MDP的DDN

图17-7 （a）显示被选择状态使用价值迭代的效用演变的图。（b）对于 c 不同的值，为保证误差最多为所需的价值迭代次数，作为折扣因子的函数

图17-12 （a）一个简单的有两个臂的确定性老虎机问题。臂可以以任何顺序拉动，每个臂产生所示的奖励序列。（b）关于（a）中的老虎机的一个更普遍的情况，其中第一个臂给出任意奖励序列，第二个臂给出一个固定的奖励 λ

图17-14 （a）伯努利老虎机的状态、奖励与转移概率。（b）伯努利老虎机过程的状态的基廷斯指数

图17-17 具有均匀初始信念状态的4×3 POMDP的最大化期望树的一部分。信念状态用与存在于每个位置的概率成正比的深浅来描述

图17-18 墙传感误差的4×3 POMDP中感知、信念状态和动作的序列。注意，之前的 Left 是安全的，它们不太可能落入(4, 2)，并迫使智能体的位置变成少量的可能位置。 Up 移动后，智能体认为它可能在(3, 3)中，但也可能在(1, 3)中。幸运的是， Right 在这两种情况下都是一个好主意，所以它选择 Right ，发现它之前在(1, 3)，现在在(2, 3)，然后继续 Right ，达到目标

图19-3 决定是否在餐厅等待的决策树

图19-4 通过测试属性来对样例进行分割。在每一个节点中我们给出剩余样例的正（绿色方框）负（红色方框）情况。（a）根据 Type 分割样例，没有为我们分辨正负带来帮助。（b）根据 Patrons 分割样例，很好地区分了正负样例。在根据 Patrons 进行分类之后， Hungry 是相对较好的第二个测试属性

图19-6 根据12样例训练集推断出的决策树

图19-9 两个不同问题上不同复杂性模型的训练误差（下方绿线）和验证误差（上方橙色线）。模型选择算法M odel -S election 将选择验证误差最小的模型对应的超参数值。（a）模型类是决策树，超参数是节点数量。数据来自餐厅等待问题。最佳的超参数大小为7。（b）模型类是卷积神经网络（见21.3节），超参数是网络中常规参数的数量。数据是数字图像的MNIST数据集，任务是识别手写数字的照片。效果最好的超参数是1 000 000（注意坐标的对数刻度）

图19-15 （a）两种类型地震数据，包含体波震级 x ₁ 和面波震级 x ₂ ，数据来源于1982～1990年在亚洲和中东发生的地震（橙色空心圆）和地底爆炸（绿色实心圆）（Kebeasy et al. , 1998）。图中还绘制了类之间的决策边界。（b）同一个领域，有比之前更多的数据点。此时地震和爆炸不再是线性可分的

图19-19 （a）一个 k 近邻模型，该图显示了图19-15中数据的爆炸一类的范围，其中 k = 1。可以明显看到有过拟合现象。（b）当 k = 5时，该数据集上的过拟合现象消失了

图19-21 支持向量机分类器：（a）两类点（橙色空心圆和绿色实心圆）和3个候选线性分离器。（b）极大边距分离器（粗线）位于边距（虚线之间的区域）的中间。 支持向量 （带有大黑圈的点）是最靠近分离器的，本图中有3个

图19-22 （a）一个二维训练集，其中正样例为绿色实心圆，负样例为橙色空心圆。图中还给出了真实的决策边界。（b）映射到三维输入空间后的相同数据。（a）中的圆形决策边界变成三维空间中的线性决策边界。图19-21b给出了（b）中分离器的特写

图19-27 MNIST数据集上的二维 t -SNE平面图，该数据集收集了60 000幅手写数字图像，每幅28像素×28像素，因此是784维。可以清楚地看到10个数字的聚类簇，每个聚类簇之间都存在一些混淆；例如，顶部是数字0的聚类簇，但是在聚类簇的范围内有一些表示数字3和6的数据点。 t -SNE算法找到了一种突出聚类簇间差异的表示

图20-1 （a）根据式（20-1）得到的后验概率。观测数量 N 为1～10，且每一个观测都是酸橙味的糖果。（b）基于式（20-2）的贝叶斯预测

图20-4 （a）高斯线性模型，它表述为加上固定方差的高斯噪声。（b）由该模型生成的50个数据点，以及它的最佳拟合直线

图20-5 不同( a, b )下 Beta ( a, b )分布的例子

图20-7 贝叶斯线性回归模型，它被约束为经过原点且噪声方差固定为。误差为±1、±2和±3个标准差的密度预测等高线也在图中给出。（a）其中3个数据点距离原点较近，因此斜率相当不确定，其方差。注意，当离观测到的数据点距离增大时，预测的不确定性也逐渐增大。（b）相比前一幅图多出两个距离较远的数据点，此时斜率被较严格地约束，其方差为。密度预测中剩余的方差几乎完全来源于噪声的固定方差

图20-8 （a）图20-12a中所给出的混合高斯模型的三维样貌。（b）从混合高斯模型中采样的128个数据点、两个查询点（小方块）以及它们的10近邻（大圆圈以及右边的小圆圈）

图20-9 应用 k 近邻进行密度估计，所用的数据为图20-8b中的数据，分别对应 k = 3、10和 40。 k = 3的结果过于尖锐，40的结果过于光滑，而10的结果接近真实情况。最好的 k 值可以通过交叉验证进行选择

图21-3 （a）具有两个输入、一个包含两个单元的隐藏层和一个输出单元的神经网络，其中虚拟输入及其权重没有在图中给出。（b）将（a）中的网络分解为完整的计算图

图21-9 生成模型如何使用空间中的不同方向来表示人脸不同方面的信息。实际上我们可以在空间中进行运算。这里的图像都是从学习到的模型中生成的，并且图像解释了当我们解码空间中的不同点时会发生什么。我们从“戴眼镜的男人”这个对象的坐标出发，减去“男人”的坐标，再加上“女人”的坐标，得到“戴眼镜的女人”的坐标。图像经许可摘自（Radford et al. , 2015）

图22-3 在给定图22-1所示的最优策略情况下，关于4×3世界问题的被动自适应动态规划的学习曲线。（a）选定某个状态子集，其效用估计值与试验次数的关系。注意，对于很少被访问的状态(2, 1)和(3, 2)，它们分别在第14次和第23次试验才被“发现”连接到位于(4, 3)处的+1退出状态。（b） U (1, 1)估计的均方根误差（见附录 A），所示的结果为50组，每组执行100次试验的平均值

图22-5 4×3世界问题中，TD的学习曲线。（a）选定的状态子集的效用估计与试验次数的关系。此为单组执行500次试验的结果。可以与图22-3a中的每组执行100次试验的结果进行比较。（b） U (1, 1)估计的均方根误差，所示结果为50组、每组执行100次试验的平均值

图25-4 这张照片展示了各种照明的效果。不锈钢佐料壶上发生镜面反射。洋葱和胡萝卜是亮的漫反射表面，因为它们面向光照射的方向。阴影部分出现在根本看不到光源的表面点上。在锅中存在一些暗的漫反射表面，光线沿着切线角度照射进来（锅内还有一些其他阴影）。该照片由Ryman Cabannes/Image Professionals GmbH/Alamy Stock Photo拍摄

图25-10 （a）原始图像。（b）图像的边界轮廓，其中 P _b 值越高，轮廓颜色越深。（c）通过对图像精细划分得到的各个分割区域，其中每个区域使用区域中的平均颜色进行填充。（d）通过对图像进行较粗糙的分割得到的各个分割区域，粗糙分割将导致得到的区域更少（图片由Pablo Arbelaez、Michael Maire、Charless Fowkes和Jitendra Malik提供）

图25-12 最左侧是MNIST数据集中的一些图像。中间图的左侧为3个卷积核。它们以实际大小（图中的小方块）给出，并放大以显示其内容：中度灰色的值为0，浅色表示正值，深色表示负值。中间图的右中侧给出了将左侧这些核应用于图像的结果。最右侧给出了响应大于阈值（绿色）与小于阈值（红色）的像素。注意，这里（从上到下）给出了一个水平条检测器、一个竖条检测器和（更难注意到的）一个尾端检测器。这些检测器关注条的对比度，因此（例如）顶部亮底部暗的水平条产生正（绿色）响应，顶部暗底部亮的水平条产生负（红色）响应。这些检测器有一定的效果，但它们不是完美的

图25-13 快速RCNN使用两个网络。一张年轻时的纳尔逊·曼德拉的照片被输入物体检测器。一个网络用于计算候选图像框（称为“锚框”）的物体检测得分，这些框以网格上的点为中心。每个网格点对应着9个锚框（3种尺寸，每种尺寸包含3种纵横比）。对于示例图像，内部的绿色框和外部的蓝色框通过了物体检测。第二个网络是一个特征栈，用于计算适合分类的图像表示。具有最高得分的框将从特征图中分割出来，通过ROI池化进行尺寸标准化，再传给分类器。注意，蓝色框的得分高于绿色框，并且与绿色框重叠，因此绿色框将被非极大值抑制算法拒绝。最后，我们对蓝色框进行边框回归，使其符合人脸的形状。这意味着对位置、比例和纵横比的相对粗粒度的采样不会降低预测准确率。照片由Sipa/Shutterstock提供

图25-16 从单一的图像中重建人类模型目前已经可以实现。两行图片都展示了基于单个图像的三维身体形状重建。这些重建是有可能的，因为一些方法可以估计关节的位置、关节在三维中的角度、身体的形状以及身体相对于图像的位姿。每行包括以下内容： 最左图 为一张图片， 中左图 为原图与重建出的身体叠加的图片， 中右图 为重建出的身体的另一个视图， 最右图 是重建出的身体的另一个不同视图。考查身体的不同视图使得在重建中隐藏错误变得更加困难。图由Angjoo Kanazawa提供，并用（Kanazawa et al. , 2018a）中提出的系统加以处理

图25-17 同一个动作看起来很不一样，不同的动作看起来很相似。这些例子是来自一个数据集中的自然动作，其标签由数据集的管理员进行选择，而不是由算法预测的。上面3幅图表示标签为“打开冰箱”的样本，有的是特写，有的是远处拍摄。下面3幅图表示标签为“从冰箱里拿东西”的样本。注意，在两排图像中，图像里的人的手是如何靠近冰箱门的——若要区分不同的情况，就需要对手的位置和门的位置做出相当微妙的判断。图由David Fouhey提供，摘自（Fouhey et al. , 2018）中给出的数据集

图25-18 我们所说的动作取决于时间尺度。对于最上面的单幅图像，最好的描述是“打开冰箱”（当你打算关上冰箱时，你不会盯着里面的东西）。但是，如果你看完了一段视频短片（由中间一行图像表示），关于这个动作的最佳描述就是“从冰箱里拿牛奶”。如果你看完了一段较长的视频（由最下面一行图像表示），关于这个动作的最佳描述是“准备点心”。这说明了行为的一种构成方式：从冰箱中拿牛奶有时是准备点心的一部分，而打开冰箱通常是从冰箱中拿牛奶的一部分。图由David Fouhey提供，摘自（Fouhey et al. , 2018）中给出的数据集

图25-19 自动图像标题系统给出了一些好的结果和一些失败的结果。左边的两个标题很好地描述了各自的图像，尽管“eating…in his mouth”是一个不流畅的表达，这是早期标题系统所使用的循环神经网络语言模型的一个相当典型的特点。根据右边的两个标题，我们认为标题系统似乎不了解松鼠，所以从环境猜测该动物；它也没有意识到这两只松鼠在吃东西。图片来源：geraine/Shutterstock、ESB Professional/Shutterstock、BushAlex/Shutterstock、Maria.Tem/Shutterstock。所示图像与用于生成标题的原始图像相似但不完全相同。原始图像见（Aneja et al. , 2018）

图25-20 视觉问答系统产生关于图像的自然语言问题的答案（通常从多项选择中选择）。 顶部： 该系统对有关图像的一些相当棘手的问题给出了非常合适的答案。 底部： 不太令人满意的答案。例如，系统被要求猜测比萨饼上的洞的个数，但系统并不知道什么算洞，而且洞本身很难计数。类似地，系统认为猫的腿的颜色是棕色，这是因为图片背景是棕色的，并且系统不能正确定位猫的腿。图片来源：（顶部）Tobyanna/Shutterstock、679411/Shutterstock、ESB Professional/Shutterstock、Africa Studio/Shutterstock，（底部）Stuart Russell、Maxisport/Shutterstock、Chendongshan/Shutterstock、Scott Biales DitchTheMap/Shutterstock。所示的图像与用于问答系统的原始图像相似但不完全相同，原始图像见（Goyal et al. , 2017）

图25-21 多视图立体算法根据运动结构图像生成的建筑工地的三维模型。它们可以帮助建筑公司通过比较目前三维模型实际搭建的进度与建筑计划来协调大型建筑工作。 左图： 基于无人机拍摄图像重建出的可视化几何模型。重建出的三维点以彩色呈现，因此结果看起来像是目前的真实进度（注意用起重机完成的部分建筑）。这些小金字塔表示无人机拍摄图像时的位姿，以便对飞行轨迹进行可视化。 右图： 这些系统实际上是施工队所使用的；作为协调会议的一部分，该团队正在查看竣工场地的模型，并将其与建筑平面图进行比较。图由Derek Hoiem、Mani Golparvar-Fard和Reconstruct提供，模型由商业系统制作

图25-22 如果你已经看过很多鸟类物种的图片（上图），你可以利用它们从一个新的图片（下图）中生成一个三维重建模型。你需要确保所有的物体都有一个相当类似的几何结构（所以如果你看到的是麻雀，那么鸵鸟的图片将对你没有任何帮助），但分类方法可以解决这个问题。你可以从许多图像中估计出图像中的纹理是如何分布在物体上的，从而完成对你尚未观察到的鸟的纹理估计（下图）。图由Angjoo Kanazawa提供，模型用（Kanazawa et al. , 2018b）中提供的系统生成。上方图片来源于Satori/123RF，左下图来源于Four Oaks/Shutterstock

图25-23 左图为真实场景的图像。在右图中，计算机图形物体已插入场景中。你可以看到光线看上去来自正确的方向，并且物体看起来也投射了效果不错的阴影。尽管生成的图像在光线和阴影方面有较小的误差，但这个图像仍是令人信服的，因为人类并不擅长分辨这些误差。图由Kevin Karsch提供，模型用（Karsch et al. , 2011）中提供的系统生成

图25-24 成对图像的转换，其中输入由航空影像和相应的道路图组成，我们的目标是训练一个从航空影像生成道路图的网络（该系统还可以学习从道路图生成航空影像。）网络通过比较（ X 型样本 x _i 的输出）和 Y 型的正确输出 y _i 进行训练。在测试时，网络必须从新的 X 型输入中生成新的 Y 型图像。图由Phillip Isola、Jun-Yan Zhu和Alexei A. Efros提供，模型用（Isola et al. , 2017）中提供的系统生成。地图数据©2019 Google

图25-25 未配对图像转换：给定两组图像（ X 型是马， Y 型是斑马），但没有对应的配对，我们要学习将马转换成斑马。该方法训练两个预测器：一个将 X 型映射为 Y 型，另一个将 Y 型映射为 X 型。如果第一个网络将马 x _i 映射为斑马，那么第二个网络应当把映射回原始的 x _i 。两个网络利用 x _i 和之间的差进行训练。从 Y 型到 X 型再回到 Y 型的循环必须是封闭的。这样的网络可以成功地对图像进行丰富的变换。图由Alexei A. Efros提供，见（Zhu et al. , 2017）。正在奔跑的马的照片由Justyna Furmanchyk Gibaszek/Shutterstock拍摄

图25-26 风格转换：将内容为猫的照片与抽象绘画的风格相结合，生成经过抽象风格渲染的猫的新图像（右图）。中间这幅画为Wassily Kandinsky绘制的 Lyrisches 或 The Lyrical （公共领域），左图猫的照片为Cosmo

图25-28 MobileEye研发的基于摄像头的自动车辆传感装置。 顶部： 两张来自前置摄像头的照片，照片的拍摄相隔几秒。绿色区域为自由空间——车辆在不久的将来可以实际移动到的区域。系统使用表示侧面的三维边框来表示物体（红色表示后部，蓝色表示右侧，黄色表示左侧，绿色表示前部）。其中物体包括车辆、行人、自行车道内边缘标志（横向控制所需）、其他标线道路和人行横道标志、交通标志和交通信号灯。动物、路杆和锥桶、人行道、护栏和其他一般物体（例如，从卡车后面掉下来的沙发）没有在图中给出。然后用三维位置和速度对每个物体进行标记。 底部： 根据检测到的物体刻画的环境的完整物理模型（图中所示为MobileEye的仅基于视觉的系统产生的结果）。图像由MobileEye提供

图25-29 导航功能通过分解成地图构建：和路径规划两个问题来实现。在每一个连续的时间步中，来自地图构建传感器的信息将用来逐步地建立一个关于世界的不确定的模型。该模型连同其规范目标一起传入路径规划器，路径规划器输出机器人为实现目标应该采取的下一个动作。关于世界的模型可以是纯粹的几何模型（如经典的SLAM），也可以是语义模型（通过学习得到），甚至可以是拓扑模型（基于地标）。我们在右图中给出实际的机器人的图片。图由Saurabh Gupta提供

图26-1 （a）具有定制末端效应器的工业机器人。图片来源：Macor/123RF。（b）安装在轮椅上的Kinova® JACO® Assistive Robot 机械臂。Kinova和JACO是Kinova股份有限公司的商标

图26-2 （a）美国国家航空航天局的好奇号巡视器在火星上自拍。图片来自美国国家航空航天局。（b）Skydio无人机伴随一家人骑行。图片由Skydio提供

图26-7 蒙特卡罗定位，这是一种用于移动机器人定位的粒子滤波算法。（a）起初，全局具有不确定性。（b）在导航到（对称的）走廊后形成近似双峰的不确定性。（c）在进入到特定的房间后形成单峰不确定性

图26-10 使用适应性视觉取得的一系列“可行驶表面”分类。（a）只有路面被分类为可行驶的（粉色区域）。蓝色的V形线表示车辆的行驶方向。（b）车辆被迫驶离路面，分类器开始将部分草地分类为可行驶的。（c）车辆更新了它的可行驶表面模型，以将草地视作路面。图片由Sebastian Thrun提供

图26-12 （a）有两个自由度的机械臂的工作空间表示。工作空间是一个盒子，其中扁平障碍物悬挂在天花板上。（b）同一个机器人的构形空间。只有空间中的白色区域是没有碰撞的构形。图中的点对应左图所示的机器人构形

图26-13 工作空间和构形空间中的3个机器人构形

图26-15 沃罗诺伊图式展示了构形空间中与周围两个或多个障碍物等距的点的集合（红色线）

图26-19 RRT生成并经过“走捷径”后期处理的截图。图片由Anca Dragan提供

图26-21 用轨迹优化器解决了伸手抓住瓶子的任务。左图：为末端效应器绘制的初始轨迹。中图：优化后的最终轨迹。右图：目标构形。图片由Anca Dragan提供，见（Ratliff et al., 2009）

图26-26 训练健壮的策略。（a）在一个操作物体的机械手上多次运行模拟，物理学参数和照明情况是随机的。图片由Wojciech Zaremba提供。（b）真实世界环境中，单个机械手处于笼子中央，周围有摄像头和测距器。（c）模拟和真实世界训练产生了多个抓住物体的策略，此处有捏住和四指握两种。图片由OpenAI提供，见（Andrychowicz et al , 2018a）

图26-27 假设人类在给定目标的情况下的理性带有噪声时进行预测：机器人使用过往动作来更新对人类目标的信念，并使用这个信念预测未来动作。（a）房间的地图。（b）看到小部分人类轨迹时的预测（白色路径）。（c）看到更多人类动作时的预测：机器人现在知道人类没有走向左边的走廊，因为如果那是人类的目标，到目前为止的行进路径就是一条糟糕的路径。图片由Brian D. Ziebart提供，见（Ziebart et al. , 2009）

图26-28 （a）左图：自主驾驶汽车（中间车道）预测人类司机（左侧车道）要继续前进，并规划了减速并入该车后方的轨迹。右图：自主驾驶汽车考虑了它的动作对人类动作的影响，发觉它可以依靠人类司机的减速来并入前方。（b）在交叉路口，同样的算法产生了不寻常的策略：自主驾驶汽车发觉它可以通过稍稍后退来使人类司机（底部）更快地通过路口。图片由Anca Dragan提供，见（Sadigh et al. , 2016）

图26-29 （a）向移动机器人展示保持在土路上的演示。（b）机器人推断所需的代价函数，将其用于新场景中，且知道使道路上的代价较低。（c）机器人对新场景规划了一条同样在道路上的路径，重现了演示中隐含的偏好。图片由Nathan Ratliff and James A. Bagnell提供，见（Ratliff et al., 2006）

图26-30 人类教学者把机器人向下拽来教它离桌子更近一些。机器人正确地更新了它对所需代价函数的理解，并开始对代价函数进行优化。图片由Anca Dragan提供，见（Sefidgar et al. , 2017）

图26-31 一个编程接口，在机器人的工作空间中放置专门设计的程序块，以选择物体并指定高层级动作。图片由Maya Cakmak提供，见（Sefidgar et al., 2017）

图26-32 （a）六足机器人Genghis。图片由Rodney A. Brooks提供。（b）用于控制一条腿的增强有限状态机（AFSM）。AFSM对传感器反馈进行反应：如果腿在前摆阶段卡住，则会逐渐增加高度

图26-33 （a）一位用脑机接口控制机械臂抓取饮料的患者。图片由布朗大学提供。（b）吸尘器机器人Roomba。照片来自HANDOUT/KRT/Newscom

图26-34 （a）手术室内的外科手术机器人。照片来自Patrick Landmann/科学图片库。（b）医院运输机器人。照片来自Wired

图26-35 （a）赢得DARPA城市挑战赛的自主汽车B oss 。照片由 Tangi Quemener/AFP/Getty Images/Newscom拍摄，由Sebastian Thrun提供。（b）展示Waymo自主汽车（绿色轨迹上的白车）的感知和预测的空中视角。其他车辆（蓝色方块）和行人（橙色方块）及其预期轨迹也展示在图中。道路/人行道边界为黄色。照片由Waymo提供

图26-36 （a）机器人为废弃煤矿绘制地图。（b）机器人获取的该煤矿三维地图。图片由Sebastian Thrun提供