智能控制与强化学习最新章节_王鼎著

1.2.5 演化值迭代算法

对于在线控制，闭环系统受控于不同的迭代控制策略，这意味着最初作用于系统的控制策略是不成熟的，即不是最优控制策略。在这种情况下，系统的稳定性难以保证。在过去十几年中，PI 算法在非线性系统的在线控制方面取得了许多令人瞩目的成就。然而，对于VI算法作用下非线性系统的在线实现和稳定性分析还很少。对于在线学习，策略需要随着时间的推移而演变，例如当前的稳定迭代策略 u _i （ x ）作用于系统 T _i ∈N ⁺ ={1,2, …}个时间步后，需要转换到下一个稳定迭代策略 u _i+1 （ x ）继续控制系统 T _i+1 ∈ N ⁺ 个时间步，这个过程称为演化控制，采用的稳定策略称为演化策略。

需要强调演化VI不特指某个算法，只要能实现演化控制的VI算法统称为演化VI算法。为了详细说明不同VI算法的演化控制过程，需要首先对其稳定性进行研究，表1-1中给出了传统VI、广义VI、稳定VI和集成VI算法的初始条件及单调性比较。可以得出，由广义 VI（ V ₀ ≥ V ₁ ）、稳定 VI，以及集成 VI算法产生的迭代策略都是容许的，因此每一个演化策略都可以作用于受控系统一定时间步，从而实现在线演化控制 ^［55］。文献 ^［31］首次证明了稳定VI算法产生的演化策略能够使得系统渐近稳定到平衡点，这得益于稳定VI算法的所有控制策略都是稳定的。此外，尽管传统VI和广义VI（ V ₀ ≤ V ₁ ）算法产生的迭代策略并非都是容许的，但文献 ^［32］指出这两类VI算法也能实现演化控制，这要求持续判断迭代过程中策略的容许性。定义一个有限的演化策略集合 ,其中每一个演化策略都满足容许条件（1-14）。对于传统VI或广义VI（ V ₀ ≤ V ₁ ）算法产生的迭代策略，如果 u _i （ x ）第1次满足容许性判别准则，则令 ,如果 u _i+j （ x ）, j ∈ N ⁺ 第2次满足容许性判别准则，则令 ,即 a _l 代表迭代策略第 l 次满足容许性判别准则。核心思想是利用当前演化策略控制系统个时间步，然后转换到下一个演化策略控制系统 +个时间步，直到系统渐近稳定到平衡点。在这个过程中，使用的控制策略不断地朝着最优控制策略的方向更新演化。毫无疑问，VI的演化控制机制促进了具有稳定性保证的在线ADP算法的发展，克服了离线VI算法效率低的缺点。

表1-1 4种算法的初始条件及单调性比较