购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 基本概念

贝叶斯优化(Bayesian Optimization,BO)是一类基于机器学习的求解黑盒问题优化方法,即

通常情况下,可行集和目标函数具有以下特性。

(1)输入变量 x 属于 ,其中 d 的值不是太大。在大多数成功的贝叶斯优化应用中,通常有 d ≤20。

(2)可行集 A 是一个简单的集合,易于判断一个点是否属于该集合。通常 A 是一个超矩形 或者 d 维单纯形集

(3)目标函数 f 是连续的,通常需要使用高斯过程回归建模 f

(4)在评估 f 时,每次评估需要花费相当长的时间(通常为数小时),而且评估次数受到限制,通常只能进行几百次。这个限制通常是由于评估过程太慢(通常需要数小时),但也可能是由于每次评估会产生一定的经济成本(例如购买云计算资源或实验室材料),或机会成本(例如评估 f 需要向人类主体提出问题,而这些主体只能容忍有限数量的问题)。因此,说 f 在这种情况下是“费时的”。

(5) f 缺乏已知的特殊结构,如凹性或线性等,这些结构可以利用技术提高效率。我们总结为 f 是一个“黑盒子”。

(6)评估 f 时,只观察到 f x ),没有一阶或二阶导数。这阻止了使用梯度下降、牛顿法或拟牛顿法等一阶和二阶方法。我们将这种属性称为“无导数”的问题。

(7)在本书的大部分内容中,将假设 f x )在没有噪声的情况下被观察到。

(8)我们的重点是寻找全局最优解,而非局部最优解。

下面通过总结这些问题特征说明贝叶斯优化(BO)是为“无导数黑盒全局优化”而设计的。

优化昂贵的无导数黑盒函数的能力使得贝叶斯优化非常灵活,最近,它在机器学习算法中调整超参数方面变得非常流行,尤其是在深度神经网络中 [100] 。从更长的时间看,自20世纪60年代以来,贝叶斯优化已被广泛用于设计工程系统 [37,101-102] 、材料和药物设计实验 [103-105] 、环境模型校准 [106] ,以及强化学习中 [53,107-108] 等实验中。

贝叶斯优化最初由文献 [101,109-111] 的工作开始,但在文献[37]提出有效全局优化(EGO)算法后,受到了更多的关注。此后,该领域的创新包括多保真度优化 [112-113] 、多目标优化 [38,114-115] 以及收敛速率的研究 [116-119] 。文献[100]的观察结果表明,贝叶斯优化对深度神经网络的训练非常有用,在机器学习领域引起了广泛关注,该领域的创新包括多任务优化 [120-121] 、专门针对深度神经网络训练的多保真度优化 [122] 和并行方法 [123-126] 。高斯过程回归、其近亲Kriging和贝叶斯优化也最近在仿真文献中进行了研究 [127-129] ,用于建模和优化使用离散事件仿真模拟的系统。

除贝叶斯优化外,还有其他技术可用于优化昂贵的无导数黑盒函数。虽然这里不会详细回顾这个领域的方法,但其中许多方法都具有与贝叶斯优化方法类似的特点:它们维护一个模型目标函数的代理,用于选择评估的位置 [130-133] 。这个更一般的方法类别通常被称为“代理方法”。贝叶斯优化通过使用贝叶斯统计学开发的代理,以及使用这些代理的贝叶斯解释决定目标函数的评估位置,使自己区别于其他代理方法。

在2.2节中,首先介绍了贝叶斯优化方法通常采用的形式。这种形式包括两个主要组成部分:一种统计推断方法,通常是高斯过程(GP)回归;以及一个决定采样位置的获取函数,通常是期望改进。在2.3节和2.4.1节中,详细描述了这两个组成部分。然后介绍了3种替代的获取函数,即知识梯度(2.4.2节)、熵搜索和预测熵搜索(2.4.3节)。 R0fuLJuQRKAcUtJrEAc3bmxKmPFsbhDGEYnIyw6VVEiOgs2AM10IyomgySwbQn5R

点击中间区域
呼出菜单
上一章
目录
下一章
×