购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
试验设计方法及选择

试验设计(design of experiments,DOE)最初由英国统计学家罗纳德·艾尔默·费希尔提出,是以概率论、数理统计和线性代数等为理论基础,科学地安排试验内容及试验结果分析的一种数理统计方法。试验设计的主要目的在于对整个输入变量空间进行样本点的高效选取,使之以有限的样本点规模尽可能反映输入变量空间变化特性。随着计算机技术和基于科学计算的仿真分析技术的不断发展,试验设计的思想也由传统的合理安排物理实验逐渐延伸到为计算机进行的仿真分析提供指导。不同于物理实验结果,计算机仿真分析结果往往没有随机误差,亦即相同的输入参数经过仿真后得到相同的系统输出。因此,专门针对计算机仿真分析的试验设计方法也不同于传统物理试验设计方法。试验设计作为代理模型技术的重要一环,为代理模型提供了科学、经济的试验方案,使样本点能够按照不同的要求分布在参数设计空间中,更为有效地反映系统输入参数与输出响应之间的复杂函数关系。

20 世纪 20 年代,英国统计学家和数学家费希尔将试验设计应用到农业实验中,这一研究被称为试验设计领域的一座丰碑。此后,试验设计得到了广泛的应用和快速的发展。20 世纪四五十年代,美国学者Metropolis和Ulam提出了蒙特卡罗取样法。20 世纪 70 年代,日本统计学家和工程管理专家田口玄一将正交试验设计方法表格化,并首先在产品的开发阶段使用了试验设计方法,有效降低了试验成本并提高了产品质量。同一时期,我国学者方开泰和王元使用数论方法提出了均匀设计,并成功缩短导弹设计周期,节省了大量的设计成本。同期,Mckay等提出了拉丁超立方取样(Latin hypercube sampling,LHS)方法。近三十年来,在先辈的研究基础上,试验设计仍然蓬勃发展。按照抽取训练点的次数可以将试验设计分为一次性取样方法和序列取样方法。

(1)一次性取样方法

一次性取样方法也称静态取样,意为在设计空间内一次性抽取全部设训练点,而不考虑基于这些训练点所构建的代理模型精度如何。到目前为止,学者们已经提出了多种常用的一次性取样方法,如全因子试验设计、拉丁超立方试验设计、正交试验设计、均匀试验设计等。但是,一次性取样方法在实际使用过程中会造成较大的系统误差和随机误差,理论上对于不确定的工程问题,训练点均匀分布在整个设计空间中是较为合理的取样结果,即训练点应具有良好的空间填充性和投影性。空间填充性描述训练点均匀分布整个设计空间的程度,现有的空间填充准则可分为两类:①基于均匀性的空间填充准则,如 P 范数(即 L p P 一般为 2)差异准则,用 L p 来衡量试验设计经验累积分布函数与均匀累积分布函数之间的差异,是一种试验设计不均匀度的衡量准则。②基于距离的空间填充准则,如极大极小距离准则、最大熵准则、泰森多边形法。目前,使用较为广泛的试验设计方法是拉丁超立方取样,但拉丁超立方取样的空间填充性、纵向相关性较差,为了进一步提高拉丁超立方取样的取样精度,学者们针对拉丁超立方取样进行了一系列的改进,提出了优化后的拉丁超立方取样,改进后算法取样精度有所提高,计算成本有所减少。

(2)序列取样方法

序列取样方法是一种动态试验设计方法,这意味着用于构建代理模型的训练点并不是一次性抽取的,而是先抽取一部分初始训练点构建初始代理模型,初步了解实际问题的部分特性,然后根据构建好的不精确的初始代理模型利用序列取样方法进一步生成新的训练点,并用所有的训练点构建最终的代理模型。序列取样的优势在于:①序列取样可以监督代理模型的预测性能,当代理模型精度足够好或者代理模型的性能不再发生明显改变时,可以终止添加训练点;②序列取样方法能够探测感兴趣区域,对于由非线性和线性部分构成的问题,如果直接使用一次性取样方法,在设计空间均匀布点,即非线性和线性部分放置同样多的训练点,势必会造成训练点的极大浪费,而序列取样方法可以从已构建的模型中学习到新知识,并逐渐细化代理模型,可节省部分时间成本。由此可知,序列取样方法是一种模型依赖的方法。从理论上讲,序列取样方法期望在复杂/非线性区域放置更多的点,而在简单/线性区域放置更少的点,即期望有效权衡局部开发和全局探索。

一次性取样方法取得了较为完善的发展,2000 年左右开始出现序列取样方法,且多围绕均方根误差、交叉验证误差和泰森多边形展开。

(3)试验设计技术面临的挑战

①取样精度与取样效率改善准则

经典的静态取样方法遵循空间填充性和投影性原则,在设计空间中一次性抽取构建代理模型所需的全部训练点。从静态取样方法原理可知,其取样过程与真实模型的响应毫无关系,也不存在从已知训练点中逐渐学习的过程。也就是说,对于具有相同设计空间但输出响应完全不同的真实模型,可能抽取到同一组训练点。因此,这种不根据真实模型特性而“因地制宜”的静态取样方法难免会造成取样精度差的问题;如果静态取样之后建立的代理模型精度无法满足要求,则需要重新进行取样,又会造成取样效率低下的问题。鉴于此,提出合理改善试验设计取样精度和取样效率的改善准则仍是一个挑战。

②权衡局部开发和全局探索方法

序列取样方法可分为模型无关和模型相关两种。经典序列取样方法包括最大化均方根误差、最大化期望改进、最大化改进概率等,均在平衡局部开发和全局探索方面存在不小的缺陷。其中,最大化均方根误差方法是一种模型无关的均匀序列取样,取样原则为在当前代理模型的最大均方根误差处添加新的训练点,不考虑真实模型的响应特性,不具备局部开发或全局探索的功能。最大化期望改进和最大化改进概率方法是模型相关的序列取样策略。事实上,这两种方法都具备一定的开发局部和探索全局的能力,但是这种能力存在相当大的不确定性,可能造成局部过度开发或者无法识别局部感兴趣区域。基于以上分析,研究局部开发和全局探索权衡方法是很有意义。

在试验设计理论中,对试验结果有影响的因素被称为试验因素,确定各因素所处的状态或所取数值大小称为水平。

①因素(factor):是指在设计中的可控的设计参数,如在变双曲圆弧齿线圆柱齿轮设计的扭矩( T )、齿数( Z )、模数( m )、齿线半径( R )、齿宽系数( FI )等均可以称为进行试验设计时的因素。

②水平(level):就是指①中各试验因素的具体取值。

③试验指标(response):响应是指试验在不同因素、不同水平的影响下所表现出的结果,如在当①中的因素取不同水平时,变双曲圆弧齿线圆柱齿轮的接触强度、弯曲强度、固有频率等的结果都是所谓的试验指标或者是响应。

目前,常用的试验设计方法主要有全因子试验设计、拉丁超立方试验设计、正交试验设计、均匀试验设计与中心组合试验设计等,下面介绍部分方法的基本原理。

一、全因子试验设计

全因子试验设计各因素的不同水平间的每一种组合都将被试验,需要大量的试验次数。例如,有 n 个设计变量,每个设计变量取 r 个水平值,那么要进行的全部试验的次数为 r n ,工程优化问题中设计变量的数目大,且每个变量的水平也多,会造成试验次数太多,故在实际的试验设计中常常不选用全因子试验设计方法。但该方法的优点是能够分析多因素及其交互作用的影响,并从中筛选出主要影响因素。通常全因子试验设计一般仅用于因子个数较少且需要考察较多交互作用的场合,水平数一般是 2 水平。表2-1 表示一个 2 因素 3 水平的全因子试验设计表格。

表2-1 2 因素 3 水平的全因子试验表

二、拉丁超立方试验设计

拉丁超立方抽样(Latin Hypercube Sampling,LHS )是 1979 年由Mckay等人创立的。拉丁超立方采样技术是一种约束随机地生成均匀样本点的试验设计和采样方法,是专门为计算机仿真试验提出的一种试验设计类型,常用于采样大型设计空间,是一种充满空间设计,采样点相对均匀地填满整个试验区间,每个因素的设计空间都被均匀划分,并且每个变量水平只使用一次。因此,拉丁超立方采样能够以较少的样本点反映整个设计空间的特性,是一种有效的样本缩减技术。拉丁超立方取样方式的主要优点就是对于产生的样本点可以确保其代表向量空间中的所有部分,而且这种取样方法有相当大的随意性,无须考虑问题的维数,样本的数目可多可少,可以是任意整数。

假设问题共有 n 个设计变量,每个设计变量有 r 个水平值,拉丁方设计表是由 n 个设计变量的 r 个水平值组成的一个 r × n 矩阵。其抽样设计的步骤为:

①确定所需试验次数 r

②将每个设计变量的水平取值区间划分为 r 组,即 r 个水平,并使得每组被取到的概率均为 1 / r

③在每个子区间中,以任意随机数的方式取样;

④重复①至③。

可用数学形式描述拉丁超立方的算法:

其中 r 是水平个数, n 是设计变量个数; j ∈[1, n ], i ∈[1, r ]; U 是区间[0,l]上的随机数; π 是序列 0,1,…, r -1 的一个排列;下标 j 是维数索引,上标 i 是水平索引。

图2-3 显示了一个具有 2 因素 9 个采样点的拉丁方采样图。

图2-3 2 因素 9 点拉丁方采用示意

三、正交试验设计

正交试验设计由日本的学者田口玄一提出,是从“均匀分散、整齐可比”的角度出发,利用正交表来合理安排少量的试验。正交试验设计可以用最少的试验次数获得基本上能反映全面试验情况的最多信息,通过对试验结果的方差分析,可以估计各因素影响的相对权重,考察各个因素之间的相互影响。

正交表是利用组合数学理论在正交拉丁方的基础上构造的一种规格化表格,正交表是正交试验设计最基本的工具,按照正交表安排试验。一般的正交表记为 L k m n ), k 是表的行数,也就是安排实验的次数; n 是表中的列数,表示因素的个数; m 是各因素的水平数。一个 3 因素 2 水平正交表 L 4 (2 3 )如表2-2 所示。

表2-2 L 4 (2 3 )正交

四、均匀试验设计

均匀试验设计由两位中国数学家方开泰和王元于 1978 年创立,与正交试验设计相比,均匀试验设计不需要顾虑试验点的整齐可比性,而只用考虑试验点在整个试验范围内均匀散布的一种试验设计方法。

均匀试验设计最重要的特点:各设计变量的每个水平只出现一次。对于设计变量数目 n ,各设计变量水平数目 r 的试验,需要的试验数依次是全因子试验设计 r n ,正交试验设计 r 2 ,均匀试验设计 r

因此,非常适合均匀设计的试验有:试验设计变量多、水平数多的试验,昂贵的试验、实际情况要求尽可能减少次数的试验,以及筛选设计变量或收缩试验范围进行逐步寻优的情形。

一般的均匀设计表记为 U k m n ), k 是表的行数,也就是安排实验的次数; n 是表中的列数,表示因素的个数; m 是各因素的水平数。一个 4因素 7 水平均匀设计表 U 7 (7 4 )如表2-3 所示。

表2-3 4 因素 7 水平均匀设计表 QrtCxY8bJI6+KV7EZ9pWJyYC4+ekvLqRKAagmOphsbZz0UkWPjaMlJQBHXsPP0Jq

点击中间区域
呼出菜单
上一章
目录
下一章
×