1) 测量的概念
测量是指通过实验获得并可合理赋予某量一个或多个量值的过程。任何测量结果都含有误差,误差自始至终存在于一切科学实验和测量过程之中。测量方法是对测量过程中使用的操作所给出的逻辑性安排的一般性描述,可用不同方式表述,如替代测量法、微差测量法、零位测量法、直接测量法、间接测量法等。
2) 测量误差的概念
测量误差又称为误差,是指测得的量值减去参考量值。
常用的误差表示方法有3种:绝对误差、相对误差和引用误差。
(1) 绝对误差
绝对误差,即测量误差,是被测量的测得值与参考量值之差,即
Δ = x i -x 0 (2.1)
式中 Δ ——绝对误差;
x i ——测量结果或测得值;
x 0 ——被测量的参考量值。
(2) 相对误差
相对误差,即绝对误差除以被测量的参考量值,常用百分数或指数幂表示为
式中 r ——相对误差;
Δ ——绝对误差;
x 0 ——被测量的参考量值。
(3) 引用误差
引用误差,即测量仪器或测量系统的误差除以仪器的特定值,该特定值一般称为引用值,可以是测量仪器的量程或标称范围的上限。引用误差可用百分数表示为
式中 r n ——测量仪器或测量系统的引用误差;
Δ x ——测量仪器的绝对误差,常用示值误差表示;
x m ——测量仪器的量程或标称范围的上限。
仪器的准确度等级,就是根据它允许的最大引用误差来划分。0.1级,表示该仪器允许的最大引用误差上限为0.1%。以 r nm 表示为
式中 r nm ——最大引用误差;
Δ x m ——仪器量程或标称范围内出现的最大示值误差;
x m ——测量仪器的量程或标称范围的上限。
1) 测量误差的来源
测量误差的来源主要有人员误差、测量设备误差、被测对象变化误差、方法误差、环境误差等,对应简称为“人、机、料、法、环”5个方面。
(1) 人员误差
由测量人员的生理机能和实际操作,如视觉、听觉的限制或固有习惯、技术水平以及操作失误等所引起的误差。
(2) 测量设备误差
测量设备本身的结构、工艺、调整以及磨损、老化等所引起的误差。
(3) 被测对象变化误差
被测对象自身在整个测量过程中不断变化着,如被测量块的尺寸变化等所引起的误差。
(4) 方法误差
测量方法不完善,主要为测量技术及操作和数据处理所引起的误差。
(5) 环境误差
测量环境的各种因素,如温度、湿度、气压、含尘量、电场、磁场与振动等所引起的误差。
2) 测量误差的分类
按测量误差的性质或出现的规律,测量误差可分为系统测量误差和随机测量误差。
(1) 系统测量误差
系统测量误差简称系统误差,是指在重复测量中保持不变或按可预见方式变化的测量误差的分量,即
式中 γ i ——系统测量误差;
——对同一被测量进行无限多次测量所得结果的平均值;
x 0 ——被测量的真值。
系统测量误差的参考量值是真值,或是测量不确定度可忽略不计的测量标准的测得值,或是约定量值。系统测量误差及其来源可以是已知或未知的。对已知的系统测量误差可采用修正补偿。
(2) 随机测量误差
随机测量误差简称随机误差,是指在重复测量中按不可预见方式变化的测量误差的分量,即
式中 δ i ——随机测量误差;
x i ——测量结果;
——对同一被测量进行无限多次测量所得结果的平均值。
随机测量误差的参考量值是对同一被测量由无穷多次重复测量得到的平均值。一组重复测量的随机测量误差形成一种分布,该分布可用期望和方差描述,其期望通常可假设为零。
(3) 测量误差与系统测量误差 、 随机测量误差的关系
由式(2.5)可知:
由式(2.6)可知:
根据式(2.1)得
由此可知,测量误差等于系统误差和随机误差的代数和,即测量误差=系统测量误差+随机测量误差。
1) 随机误差
(1) 正态分布
①正态分布的特性
经统计分析,许多随机误差服从正态分布,它有以下3种特性:
a.对称性:绝对值相等的正负误差出现的可能性相等。
b.单峰性:绝对值小的误差出现的可能性大,绝对值大的误差出现的可能性小。
c.有界性:随机误差的绝对值不会超过某一界限。
②正态分布的图形表示
如图2.1所示,设数学期望为0。数学期望决定了图形的中心位置,标准偏差决定了图形中峰的陡峭程度。
③正态分布的随机误差表示法
a.密度函数
图2.1 正态分布
式中 e——自然对数的底(e≈2.71828);
x ——随机误差;
σ ——标准偏差;
σ 2 ——方差。
上述正态分布密度函数,又称高斯曲线。
b.数学期望
c.方差
d.标准偏差
式中 n ——测量次数;
x i ——第 i 次测得值;
——
n
次测得的算术平均值;
——第
i
次测得值与平均值之差,称为残余误差或残差,以
ν
i
记之。
由于 n 为有限次,所以上述标准偏差称为实验标准偏差,也称标准差或均方根差,对同一量( x )进行有限( n )次测量,其测得值( x i )间的分散性可用标准差 s ( x i )来表述。
可以导出,测量列平均值
的标准差
是单一测量值标准差
s
(
x
i
)的
倍,即
需要指出的是,
s
(
x
i
)是
n
次中单次测量的实验标准差,而
是测量列算术平均值的实验标准差。因随机误差具有抵偿性,故平均值的实验标准差比单次测量值的实验标准差小。
e.变异系数(相对标准偏差)
变异系数CV(Coefficient of Variation)又称为离散系数或相对标准偏差,是概率分布离散程度的一个归一化度量,是标准偏差与测量列平均值
的比值的百分比,即
比起标准差来,变异系数的优势是不需要参照数据的平均值。变异系数是一个无量纲量,在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。但当平均值为零的时候,变异系数没有意义,变异系数一般适用于平均值大于零的情况。
(2) 非正态分布的随机误差表示方法
①均匀分布(矩形分布)(见图2.2)
a.密度函数
b.数学期望
c.方差
d.标准偏差
(
a
为被测量可能值包含概率区间的半宽度)
②三角分布(见图2.3)
图2.2 均匀分布
图2.3 三角分布
a.密度函数
b.数学期望
c.标准偏差
③梯形分布(见图2.4)
a.密度函数
b.数学期望
μ ( x ) = 0
c.标准偏差
④反正弦分布(见图2.5)
a.密度函数
b数学期望
μ ( x ) = 0
c.标准差
⑤t分布(见图2.6)
a.标准偏差
式中 t p ——包含概率;
ν ——自由度。
b.t分布是一般形式,而标准正态分布 N (0,1)是其特殊形式, t ( ν )成为标准分布的条件是当自由度 ν 趋于∞。
图2.4 梯形分布
图2.5 反正弦分布
图2.6 t 分布
(3) 统计分析中的常用术语及图示
下面介绍统计分析中的几种常用术语的概念(以标准正态分布为例)。
①置信区间
置信区间也称包含期间,是一个给定的数据区间,通常用标准差 σ 的 k 倍来表示,即[ A kσ , A + kσ ]。
②置信因子
置信因子也称包含因子,是置信区间[ A - kσ , A + kσ ]的标准差前面的放大系数。
③置信概率
置信概率也称置信度或置信水平,就是数据在置信区间的概率,用 p 表示,其表明了区间估计的可靠性,可在置信区间内对概率密度函数的定积分求得。
④显著性水平
估计总体参数落在某一区间内,可能犯错误的概率为显著性水平,用 a 表示。1- a = p , p 为置信度或置信水平。
如图2.7所示清晰表明了上述几个概念的关系。可见,在同一分布下,置信区间越宽,置信概率就越大,反之亦然。在不同的分布下,当置信区间给定时,标准差越小,置信因子和相应的置信概率就越大,反映出测量数据的可信度越高;当置信概率给定时,标准差越小,置信区间越窄,测量数据的可靠度就越高。
图2.7 统计分布术语图解
2) 系统误差
(1) 主要特征
由系统误差的定义和系统误差产生原因的分析,可以得出系统误差的主要特征为系统误差产生在测量之前,具有确定性;多次测量不能减弱和消除它,不具有抵偿性。
(2) 系统误差的减弱和消除
要减弱或消除系统误差,首先应发现系统误差。发现系统误差常用的方法有实验对比法、残余误差观察法、残余误差校验法、计算数据比较法、秩和检验法、t检验法等。
①采用加修正值的方法消除系统误差
因为 Δ = x i - x 0 ,所示 x 0 = x i +(- Δ )。
所谓修正值就是负的绝对误差,它是用代数法与未修正测量结果相加,以补偿系统误差的值。
②恒定系统误差的减弱和消除方法
a.交换消除法。
b.替代消除法。
c.异号抵消法。
③变值系统误差的减弱和消除方法
a.线性系统误差消除法——对称测量法。
b.周期性系统误差消除法——半周期偶数测量法。
3) 测量误差小结
如图2.8所示为有关测量误差的示意图。由图2.8可知,任意一个误差
Δ
均可分解为系统误差
γ
i
和随机误差
δ
i
的代数和。图中横坐标表示被测量,
x
0
为被测量的真值,
x
i
为第
i
次测得值,样本均值
就是
n
个测量值的算术平均值
,而总体均值
μ
就是当测量次数
n
→∞时统计平均值,或称为数学期望,即
。设测得值是正态分布
N
(
μ
,
σ
),则曲线的形状(按
σ
值)决定了随机误差的分布范围[
μ
-
kσ
,
μ
+
kσ
]及其在范围内取值概率,由图2.8可知,误差和它的概率分布密度相关,可以用概率论和数理统计的方法来恰当处理。图2.8清楚地表示了测得值
x
i
、被测量的真值
x
0
、平均值
、样本总体均值
μ
、系统误差
γ
i
、随机误差
δ
i
、残差
ν
i
之间的相互关系。
图2.8 测量误差示意图
所谓数值修约,是通过省略原数值的最后若干位数字,调整所保留的末位数字,使最后所得到的值最接近原数值的过程。在工作中,往往会遇到多位数的数值,但实际需要的却是限定的较少位数,也就是说,没有必要保留多余的位数,即应对数值进行修约。
进行数值修约,首先要确定修约位数。修约位数一般通过修约间隔(修约值的最小数值单位)来表示,而修约间隔则根据实际需要来确定。修约间隔一经确定,修约值便是其整数倍。
1) 确定修约间隔
①指定修约间隔为10- n ( n 为正整数),或指明将数值修约到 n 位小数。
②指定修约间隔为1,或指明将数值修约到“个”数位。
③指定修约间隔为10 n ( n 为正整数),或指明将数值修约到10 n 数位,或指明将数值修约到“十”“百”“千”……数位。
2) 进舍规则
数值的修约规则也称舍入规则或进舍规则。数值的有效位数或修约间隔确定后,便应将多余的部分适当舍入。长期以来,较为普遍应用的进舍规则称为“偶舍奇入”规则。
①拟舍弃数字的最左一位数字小于5,则舍去,保留其余各位数字不变。
例如,将12.149修约到个位数,得12;将12.149修约到一位小数,得12.1。
②拟舍弃数字的最左一位数字大于5,则进一,即保留数字的末位数字加1。
例如,将1267修约到“百”数位,得13×10 2 。
③拟舍弃数字的最左一位数字是5,且其后有非零数则进一,即保留数字的末尾数字加1。
例如,将10.501修约到个位数,得11。
④拟舍弃数字的最左一位数字为5,且其后无数字或皆为0时,若所保留的末位数字为奇数(1,3,5,7,9)则进一,即保留数字的末位数字加1;若所保留的末位数字为偶数(0,2,4,6,8),则舍弃。
例如,修约间隔为0.1(或10 -1 )。
再如,修约间隔为1000(或10 3 )。
⑤负数修约时,先将它的绝对值按上述的规定进行修约,然后在所得值前面加上负号。
例如,将下列数字修约到“十”数位。
再如,将下列数字修约到三位小数,即修约间隔为10 -3 。
3) 不许连续修约
①拟修约数字应在确定修约间隔或指定数位后一次修约获得结果,不得多次按进舍规则连续修约。
例如,修约97.47,修约间隔为1。
正确的做法:97.47→97
不正确的做法:97.47→97.5→98
再如,修约15.4546,修约间隔为1。
正确的做法:15.4546→15
不正确的做法:15.4546→15.455→15.46→15.5→16
②在具体实施中,有时先将获得数值按指定的修约位数多一位或几位报出,而后再进行判定。为避免产生连续修约的错误,应按下述步骤进行:
a.报出数值最右的非零数字为5时,应在数值右上角加“+”或加“-”或不加符号,以分别表明已进行舍、进或未舍未进。
例如,16.50 + 表示实际值大于16.50,经修约舍弃为16.50;16.50 - 表示实际值小于16.50,经修约进一为16.50。
b.如对报出值需要进行修约,当拟舍弃数字的最左一位数字为5,且其后无数字或皆为零时,数值右上角有“+”者进一,有“-”者舍去,其他仍按进舍规则进行。
例如,将下列数字修约到个数位(报出值多留一位到一位小数)。
③针对0.5与0.2单位的修约。
在对数字进行修约时,若有必要,也可采用0.5单位修约或0.2单位修约。
a.0.5单位修约(半个单位修约)。
0.5单位修约是指按指定修约间隔对拟修约的数值0.5单位进行的修约。
0.5单位修约方法为将拟修约数值 X 乘以2,按指定修约间隔对2 X 依进舍规则修约,所得数值(2 X 修约值)再除以2。
例如,将下列数字修约到“个”数位的0.5单位修约。
b.0.2单位修约。
0.2单位修约是指按指定修约间隔对拟修约的数值0.2单位进行的修约。
0.2单位修约方法为将拟修约数值 X 乘以5,按指定修约间隔对5 X 依进舍规则修约,所得数值(5 X 修约值)再除以5。
例如,将下列数字修约到“百”数位的0.2单位修约。
c.指定修约间隔的一般修约方法。
当指定修约间隔后,通常可按以下3个步骤进行修约:将拟报修约数除以修约间隔→取整数→乘以修约间隔。
例如,将下列数字按5的间隔进行修约。
再如,将下列数字按0.2的间隔进行修约。
1) 有效数字
在计量学和实验测试中,有效数字的概念是有差别的。
在计量学中,若某近似数字的绝对误差值不超过该数末位的正负半个单位值时,则从其第一个不是零的数字起到最后一位数的所有数字,都是有效数字。
例如,2/3的小数值为0.666…。若取0.67,则其末位数的半个单位值为0.005;而绝对误差为|0.666-0.67|=0.004,不超过0.005。0.67的有效数字为二位。
若某近似数的欲取数字的下一位数大于5,或等于5但其后有不为零的数字时,则应将其进位后再确定有效位数。例如0.128,若取至小数点后第二位,则应先将其中的8进位得0.13,再行定位,即有效数字为二位。
在此定义的有效数字概念常用于实验数据的后期处理。
在实验测试中,一个测量值的有效数字是指从仪器上读取的所有可靠数字及第一位可疑数字。例如,若万能材料试验机的最小分度值为1kN,那么力值的可靠数字可到个位,第一个可疑数字为小数点后一位。显然,此时有效数字的位数的多少,既与待测量本身的大小有关,也与使用仪器的最小分度值有关。
在实际测量值的读取中,有效数字的位数不能随意增减,应按实际测量值的大小和使用仪器的最小分度值读取全部有效数字,然后根据需要进行数值修约。
2) 有效数字位数的判断
①判断时,对“0”应特别注意,它是否为有效数字,取决于它在近似数中的位置。
②有效数字的位数与单位的换算无关,如有效数字位数增加,宜采用科学记数法,写成 a ×10 n 形式。在此形式中,有效数字只体现在 a 中,而与10 n 无关。
③小数点后面的“0”不可随意取舍,否则会改变有效数字的位数,从而影响数据的准确度。
④测量中,测量结果有效数字的最末位应与误差所在位对齐。
⑤有效数字位数,取决于被测量大小、测量仪器及测量方法,不因其他原因而改变。
3) 有效数字的运算规则
有效数字的运算,以不影响测量结果的最后一位有效数字为原则。
(1) 单一运算 ( 有效数字在算式中只参与一次运算 )
①小数的加、减运算
运算过程中,小数位数多的数比小数位数最少的位数多取一位,多余位可以舍去。最后结果的位数与位数最少者相同。
例如,0.21,0.213和0.5相加,根据上述原则,运算时可取0.21+0.21+0.5=0.92,而最后结果为0.9。
②小数的乘、除运算
在相乘或相除过程中,有效数字较多的数应比有效数字少的数多保留一位数。运算结果的位数应从第一个不是零的数字算起与位数少者相同。
例如,0.31419与0.17相乘,运算时可取0.314×0.17=0.05338,而最后结果应取0.053。
③小数的乘方、开方运算
小数乘方或开方时,其运算结果的位数应从第一个不是零的数字算起与运算前的有效数字的位数相同。
例如,0.21 2 =0.0441,应取0.044。
(2) 复合运算
对复合运算,中间运算所得数字的位数应比单一运算所得数字的位数至少多取一位(如果是运算量大而要求高的精密测试,可酌情多取),以保证最后结果的有效数字不受运算过程的影响。比有效数字的位数多取的数字常称为安全数字。
4) 异常值的判断和剔除
在重复性条件或复现性条件下,对同一量进行的多次测量中,有时可以发现个别值,其数值明显偏离它所属样本的其他值,称为异常值。测量完成后常不能确知数据中是否有异常值,应采用统计方法进行判断。此方法的原理是相同测量条件下一系列观测值应服从某种概率分布在给定一个置信水平时确定一个相应的置信区间,凡超过这个区间的观测值,就应考虑是否属于异常值并予以剔除。
异常值剔除准则很多,有拉依达准则(3σ准则)、格拉布斯(Grubbs)、迪克逊(Dixon)、肖维纳准则、t检验准则等,其中使用较多的是拉依达准则(3σ准则)和格拉布斯(Grubbs)。
(1) 拉依达准则 (3σ 准则 )
拉依达准则又称3σ准则。一组
n
个独立重复观测值中,第
i
次观测值
x
i
与该组观测值的算术平均值之差
称为残余误差
ν
i
,简称残差,即有
一组观测值中,若某一观测值的残差绝对值大于3倍标准偏差,即
则认为该值为异常值,考虑剔除,这就是拉依达准则。此准则可重复使用,即剔除第一个异常值后,再求3 σ 。然后用式(2.12)进行判断,直至保留的数据中已不含异常值为止。
拉依达准则不适用于 n ≤10的情况,此准则以正态分布为依据,在观测次数 n 趋向无穷大时,其置信水平大于99%。 n 是有限数,此准则为一个近似的准则。表2.1列出了拉依达准则的“弃真”概率,弃真的含义是把正常值作为考虑剔除的异常值。由表2.1可知,拉依达准则犯“弃真”错误的概率随 n 增大而减小,最后稳定于0.3%。
表2.1 拉依达准则的“弃真”概率
(2) 格拉布斯 (Grubbs) 准则
格拉布斯准则是以正态分布为前提,在未知总体标准差情况下,对正态样本或接近正态样本异常值的一种判别方法。
若某个测得值 x i 的最大残余误差的绝对值满足
则认为该 x i 为异常值,应予剔除。此准则可重复使用,直到所保留的数据中已无异常值。
式中 G ( n , α )——格拉布斯准则的临界值,见表2.2;
n ——测量次数;
α ——显著性水平,相当于犯“弃真”错误的概率系数,一般取0.05或0.01;
S ( x i )——测量数据组的标准差,由式(2.8)求出。
以上介绍了两种判断异常值的准则,其中拉依达准则使用方便,不用查表,但当观测次数较少( n ≤10)时不宜使用,这时宜采用格拉布斯准则或其他准则,可以参考国家标准GB/T 4883—2008《数据的统计处理和解释 正态样本离群值的判断和处理》。在较为准确的实验中,可以选用两三种准则加以判断,当几种准则的结论一致时,应剔除或保留;当几种准则的判断结论不一致时,则应慎重加以考虑,一般以不剔除为宜。
表2.2 格拉布斯(Grubbs)检验的临界值 G ( n , α )表
续表
5) 实验数据的表示方法
进行实验测定,最终得到的是一大堆相关量的数据。如何归纳、整理,以简明的形式把它们表示出来,是一项极其重要而且复杂的工作。实验数据反映了被测定的相关量之间存在的规律,这些规律是探索理论的基础,又可作为工程设计及工程质量控制的依据。
数据处理是指从获得数据开始到得出最后结论的整个加工过程,包括数据记录、整理、计算、分析和绘制图表等。通过数据处理可以确定输入、输出量之间的关系,从而揭示事物的本质及事物之间的内在联系。实验数据的表示方法一般有列表法、作图法、函数法3种,它们各有优缺点,主要根据需要和经验选择使用。
(1) 列表法
列表法简单易作,数据便于参考比较,同一表格内可以同时表示几个变数的数值变化,关系明确。这种方法应用很普遍。
列表法所采用的表格,其具体形式由所表示的实验结果的内容而定。一般来说应注意以下几点:
①表格要有标题说明,说明要简明扼要。
②完整的列表应包括表头、序号、名称、项目、说明和数据来源等项。项目应包括名称和单位,一般用公认的符号代表。表格要尽量做到自变量与因变量之间关系明确、简洁、扼要、紧凑、一目了然。
③数据填写要整齐统一。同一竖行的数值,其小数点应上下对齐,数值过大过小时应采用科学记数法,即用“10 n ”或“10- n ”( n 为整数),如158000记为1.58×10 5 。
④自变量的间距应选择适当,通常取1,2,5或10倍为宜,间距过小,表格太繁,间距过大,使用时常需插值,会降低精度。变量如果是有量纲的量,在表头该变量后要写上单位,但在变量的测定值后不要标注单位。变量如能用符号表示,尽可能用符号表示。
⑤数值在列入表格前,应按测量精度和有效数字的取舍原则来选取,然后填入表格。表中各同类量的有效位数应相同。如自变量无误差,则函数的位数取决于实验精度,两者的有效位数可以不相同。
列表是图形表示和函数表示的基础。规范的原始数据表是得到正确实验结果的前提。这种方法的缺点有:第一,表格所列各相关量的数值只能是有限的,而不能给出所有的函数值;第二,当表格不能清楚地看到相关量之间确切的关系时,即不能看出自变量变动时因变量的变动规律,只能大致估计出其趋势;第三,当表格中数值繁多时,实际应用不方便。
(2) 作图法
作图法是把所测得的相关数据在坐标图纸上用曲线表示出来,借以显示实验结果。这样作图所得的曲线称为实验曲线。作图法的优点是形式直观,便于比较,能显示数据中最大或最小值、转折点和周期性等特点。
作图法通常有以下几个步骤:
①坐标系的选定
常用的坐标系有直角坐标系、三角坐标系、对数坐标系等,应根据需要选定。选择坐标系的原则是使所得的曲线最简单。直线是图形中最简单、精度高、便于使用的,应当用变量代换的方法使图形尽可能为直线。例如,直角坐标系中的指数曲线,在对数坐标系里能够化为直线。
②坐标的分度
坐标分度的大小应反映实验值的精度,分度过细,会造成曲线的人为弯曲,具有虚假精度和读出无效数字;分度过粗会降低实验精度,曲线过于平直。坐标分度值不一定从零开始,在一组数据中,自变量和因变量都有最大值和最小值,分度时可用小于最小值的某一整数为起点,大于最大值的某一整数为终点,以使得图形位于图纸的中心位置。坐标分度确定后,要标出主坐标分度值以便读数,为了清晰,不必每一分度都标注数字。
③根据数据描点
对只看变化趋势的情况,则将数据点描在图纸上即可。若要利用曲线图进行计算,则要按一定规则描点,由于实验数据都有一定误差,因此画图时,不能简单描点,而应用一矩形表示。矩形两边分别代表自变量和因变量的误差,中心代表算术平均值,真值应在此矩形内。一般用两倍标准误差作为误差的合理范围。若同一图中表示几组不同数据,应用不同符号加以区别。
④连接曲线
根据数据点作出连续光滑的曲线,曲线应均匀,拐点和奇异点应尽量少。拐弯处要多选数据点。连线时,应使曲线尽量接近所有点而不是通过所有数据点,尤其是端点,并使曲线两侧的点数接近相等。
⑤注解说明
图形作好后,在坐标轴上要标明它所代表的物理量及计量单位,整个图形要给予图题说明,对有多条曲线的应有可辨别的文字或符号说明等。
(3) 函数法
在实验和工程技术中经常用公式来表示所有的测量数据。把全部数据用一个公式来代替,不仅简明扼要,而且可以对公式进行必要的数学运算,便于研究自变量与函数之间的关系,确立被测量的变化规律。
要建立一个能够正确表达测量数据的公式是不容易的,它很大程度上取决于测量人员的理论知识、经验和判断力,同时需要很多次大量的试验,才可能得到与测量数据接近的公式。建立经验公式常常采用一元线性回归分析的方法,具体步骤如下:
a.以自变量作为横坐标,对应测量值作为纵坐标,把测量数据点描绘成测量曲线。
b.分析测量曲线,初步确定公式的基本形式。
c.确定经验公式中的常数。
d.检验公式的准确性。
①如果测量曲线基本是直线,即两个变量之间是线性关系,可以采用线性拟合方法得到对应的经验公式。最常见的拟合方法为最小二乘法。
最小二乘法的基本原理是求残差平方和最小的情况下的最佳直线。若令拟合直线方程为
图2.9 最小二乘法直线拟合
y =a+bx (2.14)
而测量数据
y
i
与该拟合直线上对应的理想值
之间的残差为
按照最小二乘法法则,应该使
v
最小,于是分别求
=0和
,即可解
a
和
b
的值。
令
则
②如果根据测量数据描绘的是曲线,则要根据曲线的特点和已有数学曲线,判断曲线属于哪种类型。若无法判断是哪一类曲线,则可以按多项式回归处理。
对某些确定曲线,可以先将该曲线变换为直线方程,然后按一元回归方法处理就方便了。
③直线拟合的相关系数检验。
为了检查通过一元回归得到的拟合直线是否符合实际情况,常用相关系数 r 来描述两个变量 x , y 之间线性关系的密切程度,表2.3为相关系数显著性检验表。
表2.3 相关系数显著性检验表
式中
。
当0<| r |<1时, x 与 y 之间存在线性关系;当| r |→1时, x 与 y 之间关系密切;而当| r |→0时, x 与 y 之间不存在线性关系,必须进行相关系数检查。
具体检查步骤如下:
a.按式(2.17)计算相关系数 r 。
b.给定显著水平 α ,按 n -2数值查表2.3,查出相应的临界值 r α 。
c.比较| r |与 r α 的大小。如果| r |≥ r α ,则 x 与 y 之间存在线性关系。如果| r |< r α ,则 x 与 y 之间不存在线性关系, r 在显著水平 α 是不显著的,即用直线表述 x 与 y 之间的关系是不合理的。
例2.1 某碳素钢的疲劳裂纹扩展速率试验测得d a/ d N 与Δ K 的数据见表2.4,试找出两者之间的经验公式。
解:
①作d a/ d N -Δ K 散点图,如图2.10所示,从图中数据点及经验,可初步估计该曲线符合指数函数形式。
②对d a/ d N 和Δ K 取对数,得到lg(d a/ d N )和lg(Δ K ),作其散点图,如图2.11所示,可见近似为一条直线。
③对lg(d a/ d N )和lg(Δ K )进行回归分析,求其直线方程。设其方程为
由式(2.14)和式(2.15)可得系数
c = 1.975, m =- 8.115
表2.4 d a/ d N 与Δ K 数据
续表
④计算相关系数:按式(2.17)得 r =0.9634。
⑤相关系数的显著性检验。
取显著水平 α =0.05, n -2=14,由表2.4得 r 0.05 =0.497,显然 r 0.05 < r ,用直线拟合lg(d a/ d N )和lg(Δ K )之间的关系是合理的。回归直线方程为
图2.10 d a/ d N -Δ K 散点图
图2.11 lg(d a/ d N )-lg(Δ K )散点图
该碳素钢的d a/ d N -Δ K 的经验公式为