多目标贝叶斯优化：面向大模型的超参调优理论最新章节_徐华著

2.3　高斯过程

高斯过程回归（Gaussian Process Regression，GP Regression）是一种用于建模函数的贝叶斯统计方法。这里首先描述GP回归，我们重点关注在有限个点 ^d 处 f （ x ）的值，这些目标值形成一个目标值向量[ f （ x ₁ ）， f （ x ₂ ），…， f （ x _k ）]。每当在贝叶斯统计中有一个未知量，如上述向量，我们假设它是自然界从某个先验概率分布随机抽取的。GP回归将这个先验分布取为多维正态分布，其具有特定的均值向量和协方差矩阵。

通过在每个 x _i 处评估均值函数 μ ₀ 构造均值向量，通过在每对点 x _i ， x _j 处评估协方差函数或核 Σ ₀ 构造协方差矩阵。核函数应该使得在输入空间中更接近的点 x _i ， x _j 具有较大的正相关性，其编码了两点之间应该具有更相似的函数值、而非远离彼此的信念。核函数还应具有无论所选的点集是什么，其协方差矩阵是半正定的属性。均值函数和核函数示例将在2.3.1节中讨论。

GP的先验分布是关于[ f （ x ₁ ）， f （ x ₂ ），…， f （ x _k ）]的分布，即

其中， x _1： _k 表示序列 x ₁ ， x ₂ ，…， x _k ， f （ x _1： _k ）=[ f （ x ₁ ）， f （ x ₂ ），…， f （ x _k ）]， μ ₀ （ x _1： _k ）=[ μ 0（ x ₁ ）， μ ₀ （ x ₂ ），…， μ ₀ （ x _k ）]和 Σ ₀ （ x _1： _k ， x _1： _k ）=[ Σ ₀ （ x ₁ ， x ₁ ），…， Σ ₀ （ x ₁ ， x _k ）；…； Σ ₀ （ x _k ， x ₁ ），…， Σ ₀ （ x _k ， x _k ）]。

假设在某个 n 处观察到无噪声的 f （ x _1： _k ），并且希望推断出某个新点 x 处 f （ x ）的值。为此，令 k = n +1，并且 x _k = x ，以便先验分布[ f （ x _1： _k ）， f （ x ）]由式（2-2）给出。然后，可以使用贝叶斯规则计算给定这些观测值的条件分布 f （ x ）如式（2-3）所示。

在贝叶斯统计学的术语中，这个条件分布被称为后验概率分布。其中，后验均值 μ _n （ x ）是先验 μ ₀ （ x ）和基于数据 f （ x _1： _n ）的估计值的加权平均，其权重取决于核函数；后验方差等于先验协方差 Σ ₀ （ x ， x ）减去一个相应于观测到 f （ x _1： _n ）移除的方差的项。

通常，与其直接使用式（2-3）和矩阵求逆计算后验均值和方差，使用Cholesky分解并解一组线性方程通常更快速、更稳定。此外，为了改善使用此方法或直接使用式（2-3）的数值稳定性，有效的方法之一是将10 ^-6 这样的小正数添加到 Σ ₀ （ x _1： _n ， x _1： _n ）对角线的每个元素中，特别是当 x _1： _n 包含两个或更多接近的点时。该方法可以防止 Σ ₀ （ x _1： _n ， x _1： _n ）的特征值过于接近0，并且只会对无限精度计算所做的预测产生微小的变化。

虽然只在有限数量的点上对 f 进行了建模，但在对连续域 A 上的 f 进行建模时，可以使用相同的方法。严格来说，具有均值函数 μ ₀ 和核函数 Σ ₀ 的高斯过程是关于函数 f 的概率分布，其特性是对于任何给定的点集 x _1： _k ， f （ x _1： _k ）的边际概率分布由式（2-2）给出。此外，当对 f 的先验概率分布是GP时，证明式（2-3）的论据仍然成立。

除了计算给定 f （ x _1： _n ）的条件下 f （ x ）的条件分布外，还可以计算在多个未评估点处的 f 的条件分布。该分布是多元正态分布，其均值向量和协方差核函数取决于未评估点的位置、测量点 x _1： _n 的位置和它们的测量值 f （ x _1： _n ）。给定均值函数和核函数，均值向量和协方差矩阵的函数具有上述形式，而给定 f （ x _1： _n ）的条件分布是具有该均值函数和协方差核函数的GP。

2.3.1　均值函数和核函数选择

核函数通常具有如下属性，即在输入空间中更接近的点之间具有更强的相关性，即如果对于某个范数‖·‖，有‖ x - x' ‖<‖ x - x″ ‖，则核函数 Σ ₀ （ x ， x' ）> Σ ₀ （ x ， x″ ）。此外，核函数要求是半正定函数。这里描述两个示例核函数及其使用方法。

一个常用且简单的核函数是幂指数核或高斯核，即

其中，是核函数的参数。图2.2展示了从具有幂指数核的高斯过程先验中随机绘制的具有1维输入的函数，每个图对应于参数 λ ₁ 的不同值，其中 λ ₁ 从左到右递减。改变此参数会导致对于 f （ x ）在 x 上的变化速度有不同的置信度。其具有不同的 α ₁ 值。改变这个参数会产生不同的置信度，即关于 f （ x ）如何随着 x 的变化速度的不同看法。

图2.2　从具有幂指数核的高斯过程先验中随机绘制的具有一维输入的函数 f

另一个常用的核函数是Màtern核。

其中， K _v 是修正贝塞尔函数，除了参数 α _0： _d 外，还有一个参数 v 。2.3.2节中将讨论选择这些参数的方法。

均值函数最常见的选择可能是一个常数值，即 μ ₀ （ x ）= μ 。当认为 f 具有某种趋势或特定于应用程序的参数结构时，也可以将均值函数取为

其中，每个 Ψ _i 都是一个参数化函数，通常是 x 的低阶多项式。

2.3.2　超参数选择

均值函数和核函数包含参数，这些先验的参数通常为超参数，用向量 η 表示。例如，如果使用Màtern核和常数均值函数，则 η =（ α _0： _d ， v ， μ ）。

超参数选择通常有三种方法。第一种方法是最大似然估计（Maximum Likelihood Estimation，MLE）。在该方法中，给定观测值 f （ x _1： _n ），需要计算这些观测值在先验下的似然函数 P （ f （ x _1： _n ）| η ），其中符号 η 代表似然函数对 η 的依赖关系。该似然函数是一个多元正态密度。在最大似然估计中，将 η 设置为最大化该似然函数的值。

第二种方法是最大后验概率（Maximum A Posterior，MAP）。具体而言，该方法通过假设超参数 η 本身是从先验分布 P （ η ）中选择的来修正第一种方法。然后，通过MAP估计来估计 η ^[134] ，即最大化后验分布的 η 的值。

从式（2-7）到式（2-8），使用了贝叶斯定理，同时忽略了归一化常数∫ P （ f （ x _1： _n ） |η' ） P （ η' ）d η' ，因为该常数不依赖于正在优化的量 η 。

如果将超参数的先验分布 P （ η ）取为在 η 的定义域上具有常数密度的（可能退化的）概率分布，则MLE是MAP的一个特例。但是，MLE有时会估计出不合理的超参数值，例如对应于变化过快或过慢的函数（见图2.2），则MAP非常有用。通过选择一个在某个特定问题上更合理的超参数值更有可能出现的先验分布，MAP估计可以更好地对应于应用程序。常见的先验选择包括均匀分布（用于防止估计值超出某个预先指定的范围）、正态分布（用于建议估计值接近某个名义值而不设置硬截止值）、对数正态分布和截断正态分布（用于提供类似于正参数的建议）。

第三种方法称为完全贝叶斯方法（Fully Bayesian Approach）。在这种方法中，我们希望计算在超参数的所有可能取值上边缘化得到的 f （ x ）的后验分布。

上述积分通常难以计算，所以通过采样近似，即

其中，（ η _j ： j =1，2，…， J ）是通过蒙特卡罗（MCMC）方法（如切片采样）从 P （ η | f （ x _1： _n ））中采样得到的。MAP估计可以看作是对完全贝叶斯推断的一种近似：如果将后验分布 P （ η | f （ x _1： _n ））近似为在最大化后验密度的 η 处的点积分，则使用MAP进行推断可以恢复式（2-9）的结果。

2.3 高斯过程

2.3.1 均值函数和核函数选择

2.3.2 超参数选择

2.3　高斯过程

2.3.1　均值函数和核函数选择

2.3.2　超参数选择