深度强化学习理论及其在机器人运动控制中的应用实践最新章节_姚世选著

1.3 本书主要内容

本书借助DRL相关理论，对机器人姿态平衡控制、机器人持物平衡控制、机器人抓取控制展开研究。首先，分别对以上控制的研究现状和存在问题进行介绍；其次，针对存在的问题提出相应的解决方法；最后，设计机器人姿态平衡控制、机器人持物平衡控制、机器人抓取控制、移动机器人的自主控制和机器人的逆解求解等实验，将所提方法应用到上述实验中进行分析验证。本书的主要研究内容及章节安排如下。

第1章：综述本书的研究背景、研究意义、研究现状。关注机器人运动控制问题，对机器人的深度强化学习和非线性控制的研究现状进行介绍。

第2章：对深度强化学习的基本原理和算法进行概述。先介绍强化学习的基本原理及解决强化学习问题用到的相关方法；再介绍结合深度学习和强化学习理论的深度强化学习，并对深度强化学习中的主要算法进行介绍。为理解机器人控制中的非线性问题，介绍了非线性理论的部分知识，包括李雅普诺夫稳定性理论、动态规划方法、ADP方法等，为后续的研究提供了理论基础。

第3章：机器人运动控制问题及方法提出。对ADP中效用函数和RL中稀疏奖励函数在机器人平衡控制中存在的相关问题进行描述，根据存在问题提出一种细节奖励机制解决方法，利用系统的控制目标和控制细节构造细节奖励函数，将其作为效用函数的映射，并基于李雅普诺夫稳定性理论和Q-Learning理论证明细节奖励函数的可控性和合理性，分析目前抓取中的相关问题，并提出基于强化学习的Actor-Critic预训练方法。

第4章：基于深度强化学习的机器人姿态平衡控制。本章结合深度强化学习理论并应用细节奖励机制，对轮式机器人的倒立摆模型进行剖析，把机器人机械模型映射到倒立摆模型中，并设计研究方案。本章对倒立摆小车系统建立动力学模型，利用相图和李雅普诺夫函数分析系统控制特点，根据系统控制特性建立强化学习模型和动力学环境，从系统状态空间和能量消耗等多个角度设计测评函数，利用细节奖励机制和测评函数设计细节奖励函数，以深度强化学习中DQN和DDPG算法作为载体，在动力学环境和真实平台设计实验并验证细节奖励函数的有效性与可行性。该方法解决了动力学环境下训练的模型向实物平台控制环境转移的问题。实验表明，所提的强化学习方法能够学到动态性能良好、调节能力和稳健性较强的控制模型。

第5章：基于深度强化学习的机器人持物平衡控制。本章使用的基本方法依然是深度强化学习和细节奖励机制，在机器人球杆系统中，用细节奖励机制解决持物平衡控制问题。本章建立机器人球杆系统动力学模型，根据系统控制特性设计强化学习模型和动力学环境，利用细节奖励机制从球体移动位置和球体加速度等多个角度设计测评函数与细节奖励函数，并与稀疏奖励函数进行对比；针对真实平台下采用接触式传感器对球体定位存在局限性的问题，本章提出了一种基于视觉的智能定位方法，该方法相比常规的图像处理定位方法具有抗干扰性好、稳健性强等特点。针对图像像素距离到真实平台物理距离的转换问题，构建球杆和视觉传感器之间的几何模型，利用几何模型推导出像素距离到物理距离的转换模型。以深度强化学习中DDPG算法作为载体，在动力学环境和真实平台设计实验并验证所提出方法的有效性和可行性。

第6章：基于深度强化学习的机器人抓取控制。本章基于深度强化学习理论，提出网络预训练方法，旨在解决机器人的抓取控制问题。本章建立机器人运动学模型，基于解析法和深度学习两种抓取方法证明机器人抓取过程符合马尔可夫决策模型，从而架构强化学习模型，基于机器人抓取空间，学习次数等角度设计奖励函数，设计多种PPO算法中的网络结构，用于实验对比，验证网络预训练方法的有效性。

第7章：以经典的“小车爬山”问题为案例，分析机器人在移动过程中的自主控制问题，并给出解决方法和模型优化方法。基于细节奖励机制，建立了一系列测评函数和细节奖励函数，并通过实验测试其有效性和控制效果，在逐渐完善奖励函数的过程中，体现细节奖励函数对小车智能体的引导价值，完善的细节奖励函数能够得到最优化的训练模型。

第8章：研究了强化学习在机器人逆解问题中的应用。以并联机器人为研究平台，利用深度强化学习理论对机器人逆向运动学问题进行分析建模，对逆向运动学问题建立马尔可夫决策模型，并在机器人状态空间中引入动态参数，设计连续和稀疏奖励函数，从而引导机器人的学习过程。针对深度强化学习中随机采样存在的局限性，提出了一种优先采样方法，并在TD3算法模型中进行验证。

第9章：对本书的研究内容进行总结，分析研究工作中存在的不足，并展望后续研究的方向和重点。