并行分布式进化计算最新章节_陈伟能著

2.3.3 代理模型选择

代理模型选择是代理辅助优化中的一个关键步骤，涉及如何在多种可能的代理模型中，选择一个能够最好地近似真实目标函数的模型。代理模型选择的目标是在保证代理模型的精度和稳定性的同时，尽量降低代理模型的复杂度和计算开销。代理模型选择的约束是代理模型的构建和更新需要在有限的时间和资源内完成，且代理模型的误差不能超过预设的容忍范围。

在基于代理辅助的进化计算方法中，常用的代理模型主要有以下几种。

1.径向基函数网络（Radial Basis Function Network，RBFN）

RBFN是一种单隐藏层的前馈神经网络，由一个输入层、一个隐藏层和一个输出层组成，其结构如图2-6所示。RBFN的隐藏层通过径向基函数进行建模，通过对输入向量进行非线性变换，将低维输入数据映射到高维空间中，使得原本在低维空间内线性不可分的问题在高维空间中变得线性可分，提高网络对复杂函数的拟合能力。RBFN的数学表示如式（2-21）所示。

图2-6 径向基函数网络结构示意图

其中， x 表示输入向量（维度是 m ）， y （ x ）表示输出标量， n 为隐藏层神经元总数， w _i 为权重系数， c _i 是第 i 个隐藏层神经元的中心向量， φ （）表示基函数，其中一般取L2范数，即欧氏距离，由于距离是径向同性的，因此称为径向基函数。径向基函数的形式可以有多种选择，如高斯函数、多项式函数、反常S型函数等。其中，高斯函数是最常用的一种，其形式如式（2-22）所示。

其中， σ _i 表示高斯函数的宽度参数，决定了径向基函数的作用范围。 σ _i 越小，其影响越集中在中心点 c _i 附近，反之则越分散。

RBFN需要求解的网络参数有三个，基函数的中心 c _i 、方差 σ _i 以及隐藏层到输出层的权值 w _i 。根据基函数选取中心方法的不同，RBFN有多种学习方法。下面重点介绍自组织选取中心的RBFN学习法。此方法由自组织学习阶段和监督学习阶段两个阶段组成。

自组织学习阶段为无监督学习过程，求解隐藏层基函数的中心与方差。首先通过 k -means聚类的方法获得基函数的中心 c ，然后根据中心之间的距离求解方差 σ 。具体步骤如下。

1）随机初始化 n 个中心点 c ₁ ， c ₂ ，…， c _n ，其中 n 为预设的隐藏层神经元总数。

2）对于每个训练样本 x ，计算其与各个中心点的欧氏距离，并将其划分到最近的中心点所在簇。

3）对于每个簇，重新计算其中心点为该簇内所有样本的均值。

4）重复步骤2和3，直到中心点不再发生变化或达到最大迭代次数。

5）计算中心点之间的最大欧氏距离 d _max ，计算方差。

监督学习阶段通过最小二乘法直接计算隐藏层到输出层之间的权值。具体步骤如下。

1）对于每个训练样本 x _j ，计算其对应的隐藏层输出 z _j ，即，。

2）将所有训练样本的隐藏层输出组成矩阵 Z =[ z ₁ ， z ₂ ，…， z _N ] ^T ，其中 N 为训练样本的数量。

3）将所有训练样本的标签组成向量 Y =（ y ₁ ， y ₂ ，…， y _N ） ^T 。

4）用最小二乘法求解隐藏层到输出层的权值 W ，即 W =（ Z ^T Z ） ^-1 Z ^T Y 。

在基于代理辅助的进化算法的设计中，出于降低训练复杂度、提高代理模型表达能力和适应性等考虑，可能会省略基于 k -means聚类的中心点学习，而直接从训练样本中选择最具代表性的中心点，或直接以每个训练样本作为中心点，以简化RBFN的建模过程。

RBFN作为代理模型具有以下几项优势。

●局部逼近的特性：RBFN借助径向基函数在输入空间中的局部逼近特性，能够有效捕捉复杂问题中的局部特征。这使得RBFN在处理复杂、非线性任务时表现出色。

●形式简单，训练高效：RBFN的形式简单使其易于实现，且具有高效的训练过程。这一特点使得RBFN在实际应用中具有较高的实用性和易操作性。

●灵活多样：RBFN通过选择适当的基函数和训练方式，能够根据问题的特点进行灵活调整，从而更好地适应不同类型的数据。这种灵活性为RBFN的广泛应用提供了更多可能性。

综上所述，RBFN以其局部逼近、形式简单、训练高效以及灵活多样的特点，广泛应用于基于代理辅助的进化计算方法的设计，为解决实际昂贵优化问题提供了可靠的建模选择。

2.高斯过程（Gaussian Process，GP）

GP是概率统计学中随机过程（Stochastic process）的一种特殊实例。GP的应用可以追溯到20世纪70年代，当时GP被用于解决统计地质学中的回归问题，被命名为克里金模型（Kriging model）。20世纪90年代，GP被引入机器学习中的贝叶斯神经网络中，从而变得流行起来。GP的定义是基于连续域上的无限多个高斯随机变量构成的随机过程。简而言之，GP可被视为无限维的高斯分布，是多元高斯分布的扩展形式，对于任意有限个点，其函数值服从一个多元高斯分布。GP的数学定义如式（2-23）所示：

具体而言，在 m 维空间 R ^m 上的任意有限个样本点，若其函数值组成的 n 维向量（ f （ x ₁ ）， f （ x ₂ ），…， f （ x _n ））均服从 n 元高斯分布，则{ f （ x ）}构成一个高斯过程。GP由均值函数 μ （·）和协方差函数 k （·，·）共同唯一决定其表达式。对比于高斯分布可以被均值和方差共同唯一决定，多元高斯分布可以被均值向量和协方差矩阵共同唯一决定，高斯过程需要用函数的形式描述连续域上样本点的均值和方差。协方差函数也被称为核函数（kernel function），因为它捕捉了样本点之间的相关性，并将这种相关性反映在对新样本点的预测中。

GP的训练方式基于贝叶斯推理，利用先验分布和观测数据来计算后验分布，以获得对新样本点的预测均值和方差。具体步骤如下。

1）选择核函数 ：核函数的选择对于GP模型的性能至关重要，其定义了样本点之间的相关性。常用的核函数包括平方指数、高斯核函数、Matern核函数等。以常用的高斯核函数为例，其一般形式如式（2-24）所示。

其中，参数 σ 和 l 分别用于描述核函数的可微性和控制特征尺度，共同影响样本点之间的相关性。

2）构建训练集 ：收集训练样本，包括输入 x _i 和对应的输出 y _i ，形成训练集 D ={（ x _i ，。

3）计算协方差矩阵和后验分布 ：利用训练集D和选定的核函数，计算训练集的协方差矩阵 K 。然后，通过先验分布（均值函数设为 μ （ x ）=0）和观测数据计算后验分布，定义新样本点的预测均值和方差函数。具体计算公式如式（2-25）和式（2-26）所示。

式（2-25）和式（2-26）中的 μ ^* （·）和 k ^* （·）分别表示条件分布下后验高斯过程的均值函数和核函数形式。其中， k （ x ）是新样本点 x 与训练集中所有样本点的协方差向量，如式（2-27）所示。

K 是训练集的协方差矩阵，其中 K _ij = k （ x _i ， x _j ），， y 是训练集的标签向量。

4）计算预测值 ：根据后验分布，生成新样本点的预测值 f （ x ），它也是一个服从高斯分布的随机变量， ε （·）是其噪声项，具体计算公式如式（2-28）所示。

使用GP作为代理模型有以下优点。

●不确定性建模：GP支持对预测的不确定性进行建模，通过提供预测点的方差，生成可靠的置信区间。这使得模型的预测更加可靠，尤其在对不确定性敏感的应用中具有优势。

●复杂数据拟合：GP能够有效拟合非线性和复杂的数据，这得益于其能选择不同的核函数来描述样本点之间的相关性，例如高斯核函数可以确保高斯过程的平滑性。

然而，使用GP作为代理模型也有如下限制。

●计算复杂度高：高斯过程是非参数模型，每次推断都需要对所有数据点进行矩阵求逆，时间复杂度较高，特别是在处理大数据集时不够高效。

●适用性受限：高斯过程回归的先验和似然都基于高斯分布，适用性受限于数据的分布特性。在处理不符合高斯分布假设的问题，例如分类任务时，需要对后验进行近似处理以保持高斯过程的形式。

总体而言，高斯过程作为代理模型在拟合效果、不确定性建模等方面表现出色，因此也被广泛用于基于代理辅助的进化计算方法的设计中。但在处理大数据集和非高斯分布问题上，高斯过程面临计算复杂度高和适用性受限的挑战。在应用中，核函数的选择也需要谨慎，以确保模型对特定问题有良好的适应性。

3.多项式回归（Polynomial Regression，PR）

PR是一种用于逼近任意阶多维输入数据的方法，它通过多项式函数来拟合数据。PR的数学表达如式（2-29）所示。

考虑数据集，其中 x _i 是样本向量， y _i 是对应的目标评价值， x _i =（ x _i 1， x _i 2，…， x _i d ）， d 表示问题的维度。对于每个样本，有。定义包含 d 个正整数的指数向量 ε =（ π ₁ ， π ₂ ，…， π _d ），并将 x _i ^ε 的计算定义为如式（2-30）所示。

给定一组指数向量 ε ₁ ， ε ₂ ，…， ε _m 和数据集，则可通过最小二乘法的方式计算待估计的系数向量 C ₁ ， C ₂ ，…， C _m 。

PR的优势在于其能够灵活适应不同阶次的数据，从而更好地拟合复杂函数。其在基于代理辅助的进化算法中的应用可以参见文献[106]。然而，需要注意的是，过高阶数的多项式可能会导致过拟合问题。因此，在应用多项式回归时，需要谨慎选择合适的阶数，以平衡模型的复杂性和泛化能力。

4.支持向量机（Support Vector Machine，SVM）

SVM是一种基于间隔最大化的分类和回归模型，它通过核函数将低维数据映射到高维空间，从而实现线性或非线性的拟合。SVM的数学表达如式（2-31）所示。

其中， x 是模型的输入向量， y 是模型输出， α _i 是拉格朗日乘子， y _i 是训练数据的输出标签， k （ x ， x _i ）是核函数， b 是偏置项。

SVM的原理是通过最优化问题来确定拉格朗日乘子和偏置项，使其能够最大化地分割训练数据的类别或者拟合训练数据的回归曲线。SVM要在特征空间中寻找一个最优的超平面，使得该超平面能够将不同类别的数据点分开，且使得两类数据点离超平面的距离（即间隔）最大。这样的超平面称为最大间隔超平面（maximum margin hyperplane），而距离超平面最近的数据点称为支持向量（support vector），因为它们支撑了最大间隔超平面的位置。支持向量机的名称就来源于此。

SVM的优点是可以解决小样本下的模型学习问题，具有较强的泛化能力，不易受噪声影响，具有良好的鲁棒性，而且最终决策函数只由少数的支持向量所确定，计算复杂度与样本空间的维数无关，避免了维数灾难。其缺点则是当观测样本较多时需要较长的训练时间，效率不高，而且对核函数的选择和惩罚参数的调节比较敏感，需要仔细的调参过程。

5.模型选择原则

除了上述模型外，近年来一些学者也提出采用分类器甚至大语言模型等来作为昂贵优化评估的代理模型。在基于代理辅助的进化计算方法中，选择合适的代理模型是一个关键的决策，因为不同的问题可能对代理模型有不同的要求。以下是一些基于代理辅助的进化计算方法中选择代理模型的参考原则。

●问题特性和复杂性：考虑问题的特性，例如问题是否具有高度非线性、高维度、噪声等特点。对于较复杂问题，可能需要更强大的代理模型。对于较简单问题，可以选择计算效率较高的代理模型，如径向基函数网络（RBFN）。

●计算成本：考虑代理模型的训练和评价成本。一些代理模型可能需要更多的计算资源，而进化计算算法可能需要多次调用并更新代理模型。确保代理模型的计算成本与进化计算方法的计算资源相匹配。

●模型可解释性：有时候，模型的可解释性是一个关键的考虑因素。如果模型的可解释性对于问题理解或决策制定至关重要，选择支持解释性较好的代理模型，如支持向量机。

●鲁棒性：选择对噪声或不确定性具有较好鲁棒性的代理模型。高斯过程通常能够较好地处理噪声，而支持向量机也具有一定的鲁棒性。

●可扩展性：考虑代理模型在问题规模扩大时的性能表现。一些模型可能在高维度或大规模问题上表现更好。

●先验知识：如果有关于问题的先验知识，可以利用这些知识来选择更合适的代理模型。

根据具体的问题特点和应用场景，可以综合考虑以上因素，选择最合适的代理模型来辅助进化计算。实际应用中可能需要进行一些实验和比较，以确定最优的代理模型选择。