实验力学最新章节_王时越著

2.2　数据修约和数据处理

2.2.1　数据修约

所谓数值修约，是通过省略原数值的最后若干位数字，调整所保留的末位数字，使最后所得到的值最接近原数值的过程。在工作中，往往会遇到多位数的数值，但实际需要的却是限定的较少位数，也就是说，没有必要保留多余的位数，即应对数值进行修约。

进行数值修约，首先要确定修约位数。修约位数一般通过修约间隔（修约值的最小数值单位）来表示，而修约间隔则根据实际需要来确定。修约间隔一经确定，修约值便是其整数倍。

1）确定修约间隔

①指定修约间隔为10- ⁿ （ n 为正整数），或指明将数值修约到 n 位小数。

②指定修约间隔为1，或指明将数值修约到“个”数位。

③指定修约间隔为10 ⁿ （ n 为正整数），或指明将数值修约到10 ⁿ 数位，或指明将数值修约到“十”“百”“千”……数位。

2）进舍规则

数值的修约规则也称舍入规则或进舍规则。数值的有效位数或修约间隔确定后，便应将多余的部分适当舍入。长期以来，较为普遍应用的进舍规则称为“偶舍奇入”规则。

①拟舍弃数字的最左一位数字小于5，则舍去，保留其余各位数字不变。

例如，将12.149修约到个位数，得12；将12.149修约到一位小数，得12.1。

②拟舍弃数字的最左一位数字大于5，则进一，即保留数字的末位数字加1。

例如，将1267修约到“百”数位，得13×10 ² 。

③拟舍弃数字的最左一位数字是5，且其后有非零数则进一，即保留数字的末尾数字加1。

例如，将10.501修约到个位数，得11。

④拟舍弃数字的最左一位数字为5，且其后无数字或皆为0时，若所保留的末位数字为奇数（1，3，5，7，9）则进一，即保留数字的末位数字加1；若所保留的末位数字为偶数（0，2，4，6，8），则舍弃。

例如，修约间隔为0.1（或10 ^-1 ）。

再如，修约间隔为1000（或10 ³ ）。

⑤负数修约时，先将它的绝对值按上述的规定进行修约，然后在所得值前面加上负号。

例如，将下列数字修约到“十”数位。

再如，将下列数字修约到三位小数，即修约间隔为10 ^-3 。

3）不许连续修约

①拟修约数字应在确定修约间隔或指定数位后一次修约获得结果，不得多次按进舍规则连续修约。

例如，修约97.47，修约间隔为1。

正确的做法：97.47→97

不正确的做法：97.47→97.5→98

再如，修约15.4546，修约间隔为1。

正确的做法：15.4546→15

不正确的做法：15.4546→15.455→15.46→15.5→16

②在具体实施中，有时先将获得数值按指定的修约位数多一位或几位报出，而后再进行判定。为避免产生连续修约的错误，应按下述步骤进行：

a.报出数值最右的非零数字为5时，应在数值右上角加“+”或加“-”或不加符号，以分别表明已进行舍、进或未舍未进。

例如，16.50 ⁺ 表示实际值大于16.50，经修约舍弃为16.50；16.50 ^- 表示实际值小于16.50，经修约进一为16.50。

b.如对报出值需要进行修约，当拟舍弃数字的最左一位数字为5，且其后无数字或皆为零时，数值右上角有“+”者进一，有“-”者舍去，其他仍按进舍规则进行。

例如，将下列数字修约到个数位（报出值多留一位到一位小数）。

③针对0.5与0.2单位的修约。

在对数字进行修约时，若有必要，也可采用0.5单位修约或0.2单位修约。

a.0.5单位修约（半个单位修约）。

0.5单位修约是指按指定修约间隔对拟修约的数值0.5单位进行的修约。

0.5单位修约方法为将拟修约数值 X 乘以2，按指定修约间隔对2 X 依进舍规则修约，所得数值（2 X 修约值）再除以2。

例如，将下列数字修约到“个”数位的0.5单位修约。

b.0.2单位修约。

0.2单位修约是指按指定修约间隔对拟修约的数值0.2单位进行的修约。

0.2单位修约方法为将拟修约数值 X 乘以5，按指定修约间隔对5 X 依进舍规则修约，所得数值（5 X 修约值）再除以5。

例如，将下列数字修约到“百”数位的0.2单位修约。

c.指定修约间隔的一般修约方法。

当指定修约间隔后，通常可按以下3个步骤进行修约：将拟报修约数除以修约间隔→取整数→乘以修约间隔。

例如，将下列数字按5的间隔进行修约。

再如，将下列数字按0.2的间隔进行修约。

2.2.2　数据处理

1）有效数字

在计量学和实验测试中，有效数字的概念是有差别的。

在计量学中，若某近似数字的绝对误差值不超过该数末位的正负半个单位值时，则从其第一个不是零的数字起到最后一位数的所有数字，都是有效数字。

例如，2/3的小数值为0.666…。若取0.67，则其末位数的半个单位值为0.005；而绝对误差为|0.666-0.67|=0.004，不超过0.005。0.67的有效数字为二位。

若某近似数的欲取数字的下一位数大于5，或等于5但其后有不为零的数字时，则应将其进位后再确定有效位数。例如0.128，若取至小数点后第二位，则应先将其中的8进位得0.13，再行定位，即有效数字为二位。

在此定义的有效数字概念常用于实验数据的后期处理。

在实验测试中，一个测量值的有效数字是指从仪器上读取的所有可靠数字及第一位可疑数字。例如，若万能材料试验机的最小分度值为1kN，那么力值的可靠数字可到个位，第一个可疑数字为小数点后一位。显然，此时有效数字的位数的多少，既与待测量本身的大小有关，也与使用仪器的最小分度值有关。

在实际测量值的读取中，有效数字的位数不能随意增减，应按实际测量值的大小和使用仪器的最小分度值读取全部有效数字，然后根据需要进行数值修约。

2）有效数字位数的判断

①判断时，对“0”应特别注意，它是否为有效数字，取决于它在近似数中的位置。

②有效数字的位数与单位的换算无关，如有效数字位数增加，宜采用科学记数法，写成 a ×10 ⁿ 形式。在此形式中，有效数字只体现在 a 中，而与10 ⁿ 无关。

③小数点后面的“0”不可随意取舍，否则会改变有效数字的位数，从而影响数据的准确度。

④测量中，测量结果有效数字的最末位应与误差所在位对齐。

⑤有效数字位数，取决于被测量大小、测量仪器及测量方法，不因其他原因而改变。

3）有效数字的运算规则

有效数字的运算，以不影响测量结果的最后一位有效数字为原则。

（1）单一运算（有效数字在算式中只参与一次运算）

①小数的加、减运算

运算过程中，小数位数多的数比小数位数最少的位数多取一位，多余位可以舍去。最后结果的位数与位数最少者相同。

例如，0.21，0.213和0.5相加，根据上述原则，运算时可取0.21+0.21+0.5=0.92，而最后结果为0.9。

②小数的乘、除运算

在相乘或相除过程中，有效数字较多的数应比有效数字少的数多保留一位数。运算结果的位数应从第一个不是零的数字算起与位数少者相同。

例如，0.31419与0.17相乘，运算时可取0.314×0.17=0.05338，而最后结果应取0.053。

③小数的乘方、开方运算

小数乘方或开方时，其运算结果的位数应从第一个不是零的数字算起与运算前的有效数字的位数相同。

例如，0.21 ² =0.0441，应取0.044。

（2）复合运算

对复合运算，中间运算所得数字的位数应比单一运算所得数字的位数至少多取一位（如果是运算量大而要求高的精密测试，可酌情多取），以保证最后结果的有效数字不受运算过程的影响。比有效数字的位数多取的数字常称为安全数字。

4）异常值的判断和剔除

在重复性条件或复现性条件下，对同一量进行的多次测量中，有时可以发现个别值，其数值明显偏离它所属样本的其他值，称为异常值。测量完成后常不能确知数据中是否有异常值，应采用统计方法进行判断。此方法的原理是相同测量条件下一系列观测值应服从某种概率分布在给定一个置信水平时确定一个相应的置信区间，凡超过这个区间的观测值，就应考虑是否属于异常值并予以剔除。

异常值剔除准则很多，有拉依达准则（3σ准则）、格拉布斯（Grubbs）、迪克逊（Dixon）、肖维纳准则、t检验准则等，其中使用较多的是拉依达准则（3σ准则）和格拉布斯（Grubbs）。

（1）拉依达准则（3σ 准则）

拉依达准则又称3σ准则。一组 n 个独立重复观测值中，第 i 次观测值 x _i 与该组观测值的算术平均值之差称为残余误差 ν _i ，简称残差，即有

一组观测值中，若某一观测值的残差绝对值大于3倍标准偏差，即

则认为该值为异常值，考虑剔除，这就是拉依达准则。此准则可重复使用，即剔除第一个异常值后，再求3 σ 。然后用式（2.12）进行判断，直至保留的数据中已不含异常值为止。

拉依达准则不适用于 n ≤10的情况，此准则以正态分布为依据，在观测次数 n 趋向无穷大时，其置信水平大于99%。 n 是有限数，此准则为一个近似的准则。表2.1列出了拉依达准则的“弃真”概率，弃真的含义是把正常值作为考虑剔除的异常值。由表2.1可知，拉依达准则犯“弃真”错误的概率随 n 增大而减小，最后稳定于0.3%。

表2.1　拉依达准则的“弃真”概率

（2）格拉布斯（Grubbs）准则

格拉布斯准则是以正态分布为前提，在未知总体标准差情况下，对正态样本或接近正态样本异常值的一种判别方法。

若某个测得值 x _i 的最大残余误差的绝对值满足

则认为该 x _i 为异常值，应予剔除。此准则可重复使用，直到所保留的数据中已无异常值。

式中 G （ n ， α ）——格拉布斯准则的临界值，见表2.2；

n ——测量次数；

α ——显著性水平，相当于犯“弃真”错误的概率系数，一般取0.05或0.01；

S （ x _i ）——测量数据组的标准差，由式（2.8）求出。

以上介绍了两种判断异常值的准则，其中拉依达准则使用方便，不用查表，但当观测次数较少（ n ≤10）时不宜使用，这时宜采用格拉布斯准则或其他准则，可以参考国家标准GB/T 4883—2008《数据的统计处理和解释正态样本离群值的判断和处理》。在较为准确的实验中，可以选用两三种准则加以判断，当几种准则的结论一致时，应剔除或保留；当几种准则的判断结论不一致时，则应慎重加以考虑，一般以不剔除为宜。

表2.2　格拉布斯（Grubbs）检验的临界值 G （ n ， α ）表

续表

5）实验数据的表示方法

进行实验测定，最终得到的是一大堆相关量的数据。如何归纳、整理，以简明的形式把它们表示出来，是一项极其重要而且复杂的工作。实验数据反映了被测定的相关量之间存在的规律，这些规律是探索理论的基础，又可作为工程设计及工程质量控制的依据。

数据处理是指从获得数据开始到得出最后结论的整个加工过程，包括数据记录、整理、计算、分析和绘制图表等。通过数据处理可以确定输入、输出量之间的关系，从而揭示事物的本质及事物之间的内在联系。实验数据的表示方法一般有列表法、作图法、函数法3种，它们各有优缺点，主要根据需要和经验选择使用。

（1）列表法

列表法简单易作，数据便于参考比较，同一表格内可以同时表示几个变数的数值变化，关系明确。这种方法应用很普遍。

列表法所采用的表格，其具体形式由所表示的实验结果的内容而定。一般来说应注意以下几点：

①表格要有标题说明，说明要简明扼要。

②完整的列表应包括表头、序号、名称、项目、说明和数据来源等项。项目应包括名称和单位，一般用公认的符号代表。表格要尽量做到自变量与因变量之间关系明确、简洁、扼要、紧凑、一目了然。

③数据填写要整齐统一。同一竖行的数值，其小数点应上下对齐，数值过大过小时应采用科学记数法，即用“10 ⁿ ”或“10- ⁿ ”（ n 为整数），如158000记为1.58×10 ⁵ 。

④自变量的间距应选择适当，通常取1，2，5或10倍为宜，间距过小，表格太繁，间距过大，使用时常需插值，会降低精度。变量如果是有量纲的量，在表头该变量后要写上单位，但在变量的测定值后不要标注单位。变量如能用符号表示，尽可能用符号表示。

⑤数值在列入表格前，应按测量精度和有效数字的取舍原则来选取，然后填入表格。表中各同类量的有效位数应相同。如自变量无误差，则函数的位数取决于实验精度，两者的有效位数可以不相同。

列表是图形表示和函数表示的基础。规范的原始数据表是得到正确实验结果的前提。这种方法的缺点有：第一，表格所列各相关量的数值只能是有限的，而不能给出所有的函数值；第二，当表格不能清楚地看到相关量之间确切的关系时，即不能看出自变量变动时因变量的变动规律，只能大致估计出其趋势；第三，当表格中数值繁多时，实际应用不方便。

（2）作图法

作图法是把所测得的相关数据在坐标图纸上用曲线表示出来，借以显示实验结果。这样作图所得的曲线称为实验曲线。作图法的优点是形式直观，便于比较，能显示数据中最大或最小值、转折点和周期性等特点。

作图法通常有以下几个步骤：

①坐标系的选定

常用的坐标系有直角坐标系、三角坐标系、对数坐标系等，应根据需要选定。选择坐标系的原则是使所得的曲线最简单。直线是图形中最简单、精度高、便于使用的，应当用变量代换的方法使图形尽可能为直线。例如，直角坐标系中的指数曲线，在对数坐标系里能够化为直线。

②坐标的分度

坐标分度的大小应反映实验值的精度，分度过细，会造成曲线的人为弯曲，具有虚假精度和读出无效数字；分度过粗会降低实验精度，曲线过于平直。坐标分度值不一定从零开始，在一组数据中，自变量和因变量都有最大值和最小值，分度时可用小于最小值的某一整数为起点，大于最大值的某一整数为终点，以使得图形位于图纸的中心位置。坐标分度确定后，要标出主坐标分度值以便读数，为了清晰，不必每一分度都标注数字。

③根据数据描点

对只看变化趋势的情况，则将数据点描在图纸上即可。若要利用曲线图进行计算，则要按一定规则描点，由于实验数据都有一定误差，因此画图时，不能简单描点，而应用一矩形表示。矩形两边分别代表自变量和因变量的误差，中心代表算术平均值，真值应在此矩形内。一般用两倍标准误差作为误差的合理范围。若同一图中表示几组不同数据，应用不同符号加以区别。

④连接曲线

根据数据点作出连续光滑的曲线，曲线应均匀，拐点和奇异点应尽量少。拐弯处要多选数据点。连线时，应使曲线尽量接近所有点而不是通过所有数据点，尤其是端点，并使曲线两侧的点数接近相等。

⑤注解说明

图形作好后，在坐标轴上要标明它所代表的物理量及计量单位，整个图形要给予图题说明，对有多条曲线的应有可辨别的文字或符号说明等。

（3）函数法

在实验和工程技术中经常用公式来表示所有的测量数据。把全部数据用一个公式来代替，不仅简明扼要，而且可以对公式进行必要的数学运算，便于研究自变量与函数之间的关系，确立被测量的变化规律。

要建立一个能够正确表达测量数据的公式是不容易的，它很大程度上取决于测量人员的理论知识、经验和判断力，同时需要很多次大量的试验，才可能得到与测量数据接近的公式。建立经验公式常常采用一元线性回归分析的方法，具体步骤如下：

a.以自变量作为横坐标，对应测量值作为纵坐标，把测量数据点描绘成测量曲线。

b.分析测量曲线，初步确定公式的基本形式。

c.确定经验公式中的常数。

d.检验公式的准确性。

①如果测量曲线基本是直线，即两个变量之间是线性关系，可以采用线性拟合方法得到对应的经验公式。最常见的拟合方法为最小二乘法。