多目标贝叶斯优化：面向大模型的超参调优理论最新章节_徐华著

2.2　贝叶斯优化

贝叶斯优化由两个主要部分组成：用于建模目标函数的贝叶斯统计模型，以及用于决定下一次采样位置的获取函数。在根据初始空间填充实验设计进行目标函数评估后，通常由均匀随机选择的点组成，它们被迭代地用于分配剩余的 N 个函数评估预算，如算法2.1所示。

算法2.1　贝叶斯优化的基本伪代码

统计模型，通常是高斯过程，提供了一个贝叶斯后验概率分布，描述了候选点 x 处 f （ x ）的潜在值。每次在一个新点观察 f 时，这个后验分布会被更新。2.3节将详细讨论使用GP的贝叶斯统计建模。获取函数衡量了在当前 f 的后验分布下，在一个新点 x 评估目标函数将会产生的价值。2.4.1节讨论了最常用的获取函数——期望改进，然后在2.4.2节和2.4.3节中讨论其他获取函数。

使用GP回归和期望改进的贝叶斯优化算法1中的一次迭代在图2.1中进行了说明。顶部面板显示：目标函数 f 在3个点处的无噪声观测值，用蓝色表示； f （ x ）的估计值（实线红色线）；以及 f （ x ）的贝叶斯置信区间（类似于置信区间）（虚线红色线）。这些估计值和置信区间是使用GP回归获得的。贝叶斯优化选择下一个最大化获取函数的点进行采样，这里用“ x ”表示。顶部面板显示了目标函数的无噪声观测值，其中蓝色圆圈表示3个点。它还显示了GP回归的输出。在2.3节中将看到，GP回归对每个 f （ x ）产生一个后验概率分布，该分布服从正态分布，均值为 μ _n （ x ），方差为。在图2.1中， μ _n （ x ）表示为实线红色线， f （ x ）的95%贝叶斯置信区间（ μ _n （ x ）±1.96× σ _n （ x ））表示为虚线红色线。均值可以解释为 f （ x ）的点估计。置信区间在先验分布下包含 f （ x ）的概率为95%。均值对以前评估的点进行插值。在这些点处，置信区间的宽度为0，并且随着远离这些点，置信区间变得越来越宽。

底部面板显示了与此后验对应的期望改进获取函数。请注意，它在先前评估过的点处取值为0。当目标函数的评估是无噪声时，这是合理的，因为在这些点处进行评估对求解式（2-1）提供不了有用的信息。还请注意，它倾向于在具有更大的置信区间的点上取得更大的值，因为在观察到对目标函数更加不确定的点时，更容易找到较好的全局近似最优解。此外，它倾向于在具有较大后验均值的点上取得更大的值，因为这些点往往靠近较好的全局近似最优解。

图2.1　贝叶斯优化示意图：最大化具有一维连续输入的目标函数 f （见彩插）

2.2 贝叶斯优化

2.2　贝叶斯优化