通常将“离群点”称为噪声,噪声干扰可能带来严重的后果。例如,使拟合度最佳的标准导致失误,或使真正有效的数学模型反而比“假”模型拟合度差些。用预报结果检验可能会甄别此事。统计数学上,样品筛选处理的目的主要是删去某些离群的样品点,改善分类效果。定义和判断“离群点”的方法有以下几种。
①若样本特征呈近线性关系,可用稳健回归方法确定“离群点”。
②若样本特征不呈近线性关系,通常将近邻多半为异类的样品删除,或将其目标值与各近邻平均值相差特别大的样品删除,也可以将特征压缩后做回归分析。
上述方法由于认定和删去离群点基于若干假定,事先无法确定这些假定是否合乎实际,因此对删除后的数据必须谨慎对待。在实践中若能对离群点是否为“真”离群点做反复验证,才能增加结果的可靠性。经过初步评估,对“可分性”不满意时,可试行“样品筛选”操作,改善可分性。