购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 样本筛选处理

通常将“离群点”称为噪声,噪声干扰可能带来严重的后果。例如,使拟合度最佳的标准产生失误,或使真正有效的数学模型比“假”模型拟合度还差些。采用预报结果检验的方法可能会甄别此事。统计数学上,样本筛选处理的目的主要是删去这些离群的样本点,从而改善分类效果。定义和判断“离群点”的方法有以下几种。

①若样本特征呈近线性关系,可用稳健回归方法确定“离群点”。

②若样本特征不呈近线性关系,通常将近邻多半为异类的样本删除,或将目标值与各近邻平均值相差特别大的样本删除,也可以将特征压缩后做回归分析。

上述方法由于认定和删除离群点基于若干假设,事先无法确定这些假设是否合乎实际,因此对删除后的数据必须谨慎对待。在实践中若能对离群点是否为“真”离群点进行反复验证,才能增加结果的可靠性。经过初步评估,对“可分性”不满意时,可试行“样本筛选”操作,改善可分性。 RBn/4szKAMq+HG8sXPc8mLm7/+HumRA49ipUmcYnIsJZS7SOG5JB2AmhM4ASc6zN

点击中间区域
呼出菜单
上一章
目录
下一章
×