智能控制与强化学习最新章节_王鼎著

1.3.1 求解稳态控制的值迭代跟踪算法

考虑原系统如式（1-1）所示，定义需要跟踪的参考轨迹为

其中， D （·）是参考轨迹函数。对于最优跟踪问题，目标是找到一个最优控制律 u （ x _k ）使得原系统（1-1）跟踪上期望的参考轨迹 r _k ,并最小化设定的代价函数。定义跟踪误差为 e _k = x _k − r _k ,然后可以推出

一般地， u （ x _k ）包含前馈控制和反馈控制两部分 ^［60］。前馈控制通常也称为稳态控制或参考控制，用于实现完美跟踪且满足

已有许多方法求解离散时间仿射和非仿射系统的稳态控制 u （ r _k ）。对于模型已知的非线性仿射系统 x _k+1 = f （ x _k ）+ g （ x _k ） u _k ,可根据 u （（ r _k ）= g ⁺ （ r _k ）（ r _k+1 − f （ r _k ））获得，其中 g ⁺ （ r _k ）是 g （ r _k ）的广义逆矩阵 ^［68-69］。对于模型已知的非仿射系统、模型未知的仿射和非仿射系统3种情形，都需要通过输入/输出数据建立模型网络来获取稳态控制 u （ r _k ） ^［70-75］。在获得稳态控制后，需要设计反馈控制 u （ e _k ），也称为跟踪控制，使得跟踪误差趋向于零，即。最后，联合稳态控制和反馈控制可得原系统的控制律 u （ x _k ）= u （ r _k ）+ u （ e _k ）。

根据 e _k 和 u （ e _k ）,可以推导出误差系统为

令 ,定义一个包含跟踪误差和参考轨迹的增广系统为

为了解决最优跟踪控制问题，对于增广系统（1-32），定义需要最小化的代价函数为

其中， U （ X _l , u （ e _l ））＞0是效用函数。根据文献 ^［69］，效用函数通常设计为如下形式

因此，式（1-33）中增广系统的代价函数可以重写为

不难看出，这个代价函数只与跟踪误差 e _k 和跟踪控制 u （ e _k ）相关,因此可以将式（1-31）中的误差系统简化为

从这个角度看，原系统（1-1）的跟踪问题转化成了误差系统（1-36）的调节问题。根据Bellman最优性原理，最优代价函数满足以下HJB方程

相应地，最优跟踪控制可由式（1-38）计算

结合 u （ r _k ）和最优跟踪控制 u ^* （ e _k ）可得原系统的最优控制律 u ^* （ x _k ）= u （ r _k ）+ u ^* （ e _k ）

由于最优跟踪问题能够转换为最优调节问题，因此前述的一系列先进VI算法都能进行平行推广。初始化代价函数为 V ₀ （ e _k ）=0,对于 i ∈ N,跟踪问题的传统VI算法在跟踪控制

和代价函数

之间交替进行更新。针对非线性最优跟踪问题的传统VI算法的收敛性、稳定性，以及最优性得到了广泛研究 ^［72-75］。类似地，广义VI算法的初始代价函数为 ,后续的更新与式（1-39）和式（1-40）保持一致。值得一提的是，广义VI算法已被用于解决污水处理过程中关键变量的跟踪问题，有效地提升了出水水质 ^［75］。通过引入一步回报和 λ 步回报的评判网络，文献 ^［76］提出了一种广义的n步值梯度学习算法以解决未知非线性离散时间系统的跟踪问题。为了实现跟踪问题的无加速VI算法，通常采用如图1-5所示的HDP结构，其中，执行网络和评判网络分别用于近似跟踪控制和代价函数。此外，模型网络也是重要一环，通过学习非线性系统动态信息从而产生稳态控制和输出下一时刻状态。

图1-5 面向最优跟踪的HDP结构

实际上，加速机制同样可以平行推广到非线性系统的跟踪问题。文献 ^［72］采用可调节VI算法离线获得了最优跟踪控制，为后续的在线自适应学习提供了基础。初始化代价函数为 ,对于 i ∈ N,可调节VI算法迭代地更新跟踪控制

和代价函数

基于吸引域机制，文献 ^［77］采用演化VI算法解决了受约束非线性系统的跟踪问题，并给出了迭代跟踪控制的稳定性判据。类似地，稳定VI和集成VI算法也能用于解决复杂非线性系统的最优跟踪问题。由于最优跟踪是最优调节的推广，因此针对两类问题的先进VI算法的收敛性、单调性、稳定性都保持一致。