对于在线控制,闭环系统受控于不同的迭代控制策略,这意味着最初作用于系统的控制策略是不成熟的,即不是最优控制策略。在这种情况下,系统的稳定性难以保证。在过去十几年中,PI 算法在非线性系统的在线控制方面取得了许多令人瞩目的成就。然而,对于VI算法作用下非线性系统的在线实现和稳定性分析还很少。对于在线学习,策略需要随着时间的推移而演变,例如当前的稳定迭代策略 u i ( x )作用于系统 T i ∈N + ={1,2, …}个时间步后,需要转换到下一个稳定迭代策略 u i+1 ( x )继续控制系统 T i+1 ∈ N + 个时间步,这个过程称为演化控制,采用的稳定策略称为演化策略。
需要强调演化VI不特指某个算法,只要能实现演化控制的VI算法统称为演化VI算法。为了详细说明不同VI算法的演化控制过程,需要首先对其稳定性进行研究,表1-1中给出了传统VI、广义VI、稳定VI和集成VI算法的初始条件及单调性比较。可以得出,由广义 VI( V 0 ≥ V 1 )、稳定 VI,以及集成 VI算法产生的迭代策略都是容许的,因此每一个演化策略都可以作用于受控系统一定时间步,从而实现在线演化控制 [55] 。文献 [31] 首次证明了稳定VI算法产生的演化策略能够使得系统渐近稳定到平衡点,这得益于稳定VI算法的所有控制策略都是稳定的。此外,尽管传统VI和广义VI( V 0 ≤ V 1 )算法产生的迭代策略并非都是容许的,但文献 [32] 指出这两类VI算法也能实现演化控制,这要求持续判断迭代过程中策略的容许性。定义一个有限的演化策略集合 ,其中每一个演化策略 都满足容许条件(1-14)。对于传统VI或广义VI( V 0 ≤ V 1 )算法产生的迭代策略,如果 u i ( x )第1次满足容许性判别准则,则令 ,如果 u i+j ( x ), j ∈ N + 第2次满足容许性判别准则,则令 ,即 a l 代表迭代策略第 l 次满足容许性判别准则。核心思想是利用当前演化策略 控制系统 个时间步,然后转换到下一个演化策略 控制系统 +个时间步,直到系统渐近稳定到平衡点。在这个过程中,使用的控制策略不断地朝着最优控制策略的方向更新演化。毫无疑问,VI的演化控制机制促进了具有稳定性保证的在线ADP算法的发展,克服了离线VI算法效率低的缺点。
表1-1 4种算法的初始条件及单调性比较