考虑如下一类确定的、时不变的、离散时间非线性系统
其中, x k ∈ R n 和 u k ∈ R m 分别为系统状态和控制输入, F ∶R n ×R m →R n 是系统函数。假设函数 F ( x , u )是Lipschitz连续的。假设原点 x =0是系统(1-1)在 u =0下的唯一平衡点,即 F (0,0)=0。
定义 1-1 如果存在一个控制输入 u ∈ R m 使得对于任意的初始状态 x 0 ∈Ω,当 k →∞时, x k →0,则这个非线性动态系统在紧集Ω⊂R n 上是可镇定的。
对于无折扣最优调节问题,定义无限时域的代价函数为
其中, U ( x , u )≥0是相对于 x 和 u 的效用函数,且 U (0,0)=0。一般地,效用函数可以为二次型形式 U ( x , u )= x T Qx + u T Ru ,其中, Q ∈ R n×n 和 R ∈ R m×m 是正定矩阵。期望找到一个最优状态反馈控制律u * (x),不仅能够在Ω上镇定被控系统(1-1),而且能够保证代价函数(1-2)是有限的,即u * (x)是一个容许控制律。
定义 1-2 如果满足以下条件: u ( x )在集合Ω上是连续的; u ( x )在集合Ω上镇定系统(1-1);对于所有的 x 0 ∈Ω, J ( x 0 )是有限的; u (0)=0,则这个状态反馈控制律 u ( x )对于代价函数(1-2)在集合Ω上是容许的。
为了进一步说明代价函数,式(1-2)可以写为
根据 Bellman 最优性原理,最优代价函数是时不变的,并且满足以下离散时间HJB方程
其中,最优控制律可通过式(1-5)求解
注意,最优控制律满足一阶必要条件,该条件可由式(1-4)右侧部分关于 u k 的偏导数给出,即
于是,进一步得到
作为一类特例,具有输入仿射形式的离散时间非线性系统(1-1)表示为
其中, f ∶R n →R n 和 g ∶R n →R n ×m 是系统函数, f (0)=0。针对非线性仿射系统,式(1-7)中的最优控制律可以写为
当仿射系统中的函数 g ( x )已知时,可以避免求解 ∂x k+1 / ∂u k 。然而,大多数非线性系统通常为非仿射形式或系统模型未知,这需要建立模型网络近似求解 ∂x k+1 / ∂u k 。
注意到 J * ( x )存在于式(1-4)的两边,这意味着 HJB 方程无法直接求解。于是,学者们提出一些先进的基于评判学习机制的VI算法,用于数值求解HJB方程,进而获得非线性系统的近似最优控制律。