中国机械行业卓越工程师教育联盟第六届毕业设计大赛优秀作品案例集最新章节_中国机械行业卓越工程师教育联盟著

视觉引导下基于深度强化学习的移动机器人导航方法

程祥

Cheng Xiang

华中科技大学械设计制造及自动化

1.设计目的

随着智能车间、无人工厂技术的发展，目前的基于SLAM技术的移动机器人自主导航方法难以满足高动态的生产需求，而基于深度强化学习的视觉导航方法的发展备受关注。仅根据视觉传感器输入就能完成动作输出的移动机器人在人机协同、物流运输以及智能化工厂等领域将得到广泛运用。

深度强化学习方法继承了深度学习的感知能力和强化学习的决策能力，且能够根据奖励函数设计达到适应不同环境的效果，能够大幅提高未知环境中的移动机器人导航能力。现有的基于深度强化学习的视觉导航方案主要是“端到端”的，这种方案训练困难且训练好的模型难以泛化运用到未训练的场景中。为了解决深度强化学习方法训练策略与训练环境强绑定的问题，核心是研究一种合理的泛化性训练与高效率移动机器人视觉导航方法。只依靠视觉导航的移动机器人能够突破传统导航技术对地图的依赖，实现未知场景下的无地图高效稳定的自主智能导航，对于生产生活中节约时间成本、提高生产效率、助力传统制造业的低成本转型升级和推动国民经济增长具有重要的意义。

2.基本原理及方法

为了降低神经网络的训练难度，同时尽量避免在训练过程中产生过拟合，本课题放弃使用“端到端”方案，首先对实际环境图像信息进行抽象处理，提取其中对于智能体动作决策至关重要的信息，筛除大量的无关信息，这样有助于减小网络规模，能够有效降低算法整体的训练难度，还可以转移“重训练”的成本，节省了决策网络训练的时间。为了应对全局变动难以获得准确的全局信息，本课题放弃使用SLAM建图技术，而是引入序列记忆模块收集处理短时域跨度的信息，再引入注意力模块帮助信息的理解学习，然后再进行动作决策，这样能够避免智能体的决策网络与训练环境中产生过拟合问题，从而在训练过程中形成一种泛化性的导航策略。

本课题将导航问题的感知模块分为了主观感知和客观感知两个部分。客观感知部分是指对环境信息的抽象提取部分，这部分的主要功能是提取环境中对于动作决策至关重要的信息，如环境语义信息、深度信息和目标检测信息；主观感知部分主要功能是将抽象提取后的环境信息输入给智能体后，利用智能体的神经网络处理、理解、记忆环境信息，是智能体进行决策的基础。而导航问题的决策部分的主要内容是智能体根据当前状态的理解、环境奖励设置以及目标等各方面因素综合选择当前状态下的最优策略的过程，本课题采用基于动作信息熵的深度强化学习算法，这类算法本身具有强大的探索能力，适用于本课题所考虑的复杂动态室内未知场景。

3.主要设计过程或试验过程

1）环境多模态信息融合方案

针对视觉导航问题中导航策略难训练、难迁移的问题，提出了一种环境多模态信息融合方案。分析了训练环境中信息繁杂对训练难度与策略迁移的影响，提出了采用环境语义信息、深度信息以及目标检测信息融合的方案，保证了移动机器人在所有的环境中所接收到的信息具有同一性，在相同的信息基础上进行策略学习；针对环境语义信息、深度信息和目标检测信息融合问题，抛弃了简单的图像拼接，提出了基于图像变换和Sigmoid处理的融合方案，降低了算法的训练难度，达到了算法快速收敛的效果。

2）未知环境目标自主探寻

针对视觉导航问题中时域信息缺失的问题，提出了一种跨时域的无地图自主目标探寻方法。研究了部分可观测的马尔可夫决策问题中的时域信息缺失问题，给出了基于图像短时序列输入的时域信息补偿措施。分析了序列输入下存在的训练难度大，训练速度慢问题，针对深度神经网络在处理多维度信息时存在的不足，提出了使用注意力机制提高算法的训练效率；针对未知室内环境下的目标驱动导航问题，基于深度强化学习SAC框架提出了状态空间、动作空间、奖励函数设计和训练方案。

3）测试验证

进行深度强化学习算法的训练方案和试验方案设计。为了验证算法的可行性与先进性，本课题在基于Unity的AI2-THOR仿真软件基础上，利用Python语言进行了程序的二次开发，搭建了仿真试验平台；为了验证方法的可行性，本课题在仿真平台上设计了泛化性的训练方案，最终的训练结果表明本课题的观测空间、动作空间以及奖励函数的设计是合理且有效的，最终的试验结果表示，训练后的机器人能够在未知的室内场景中进行自主视觉导航任务，在遇到转角、长廊和目标时能自主调整步幅和转角，完成上述场景的安全通过和目标追踪；最后针对多模态信息融合与融合注意力机制的序列输入方法进行了方法先进性验证，结果表明本课题的方法相较于改进前具有可行性和快速收敛性。

4.结论

（1）本课题所提的环境多模态信息融合方案，对环境信息进行预处理，降低了策略学习难度，提高了学习效率，同时也转移了策略的重训练成本，提高了方法的泛化能力。

（2）本课题所提的未知环境中的移动机器人自主目标探寻方案，采用了融合注意力机制的短时序列拼接方法，结合具有内在探索策略的设计，实现了未知环境中的目标高效自主安全的目标探寻。

（3）本课题设计的基于深度强化学习的未知环境视觉导航方法框架，通过状态空间、动作空间、奖励函数与训练方案的优化设计，得到了一个训练代价小、泛化能力强的移动机器人导航模型。

5.创新点

（1）采用“非端到端”方案实现目标驱动导航任务，将智能体的感知部分拆分为主观感知与客观感知，转移了训练成本，提高了方法的泛化能力。

（2）运用短时序列拼接方法，为机器人提供了更加丰富的观测空间，融合了注意力机制，提高了移动机器人的学习效率。

（3）提出了基于深度强化学习的算法框架，设计了一种泛化能力强的训练方案和基于交叉熵和线性势场的奖励函数机制，提高了机器人的探索能力和安全性。

6.设计图或作品实物图

作品整体方案框架如图 1 所示，软件结构与UI界面图如图 2、图 3 所示。

图 1 整体方案框架图

图 2 软件结构图

图 3 UI界面图

高校指导教师：谢远龙；企业指导教师：肖卫国