购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 引入问题

2.1.1 问题描述

慢性肾脏病(CKD)是指超过三个月持续的肾脏损害和功能下降。在这段时间内,肾脏清除血液中代谢废物的能力逐渐下降,肾脏无法正常执行其功能。CKD作为一种非传染性疾病,在全球范围内已经有大量死亡病例。与乳腺癌或前列腺癌相比,CKD每年的死亡率更高。它是全球范围内一个令人关注的公共卫生问题,所以预测该病对采取必要的预防措施具有重要作用。

CKD一般进展缓慢,早期没有明显的症状,所以大多数患者都没有意识已患病,导致不能在早期就发现疾病并接受治疗。随着时间的推移,病情恶化,伴随着肾功能的衰竭,CKD终末期需要进行肾透析或者肾移植。无论是检测、诊断还是治疗,都需要很高的费用,而且CKD患者的死亡率也会提高。因此,在CKD早期就进行诊断和及时治疗可以延缓或者预防CKD的终末期。如果CKD患者在早期就能使用低成本的计算机辅助诊断来分析身体状况,不仅可以降低整个患病时期诊断的成本,还可以及早治疗,延缓病情的发展。

在建模、预测前,通常需要先对数据做描述性统计分析,以发现并处理数据中的异常值和缺失值,从而避免异常值和缺失值对建模效果带来负面影响。其中,缺失值是指缺失的数据项,如某用户在填写调查问卷时,没有填写“年龄”一栏的信息,那么对于该用户填写的这条数据来说,“年龄”数据项就是缺失值;异常值是指虽然有值但值明显偏离了正常的取值范围,如针对18~30岁成年人的调查问卷中,某用户填写调查问卷时将年龄误填为2。

本章以CKD数据为例展示缺失值的发现和处理方法,包括两个问题:一是数据中缺失值的统计,二是数据中缺失值的填充。

【问题1】 缺失值的统计:统计各数据项缺失值的数量,并统计含缺失值的数据条数。对于一条数据来说,只要有一个数据项是缺失值,它就是含缺失值的数据。

【问题2】 缺失值的填充:当含缺失值的数据比例较高时,直接删除这些数据会导致可用数据量减少,进而影响建模效果。因此,需要根据非缺失值对缺失值进行填充。

课程思政:问题求解与计算思维

2.1.2 问题归纳

【问题1】 本问题以CKD数据为例,统计数据缺失值的情况。数据中的缺失值以固定符号表示,因此本问题实质上就是统计各列中缺失值符号出现的次数,以及含缺失值符号的数据条数。

【问题2】 本问题在问题1的基础上,对数据缺失值进行填充。填充的方式较多,如取上一有效数据项的值、取下一有效数据项的值、取同一列所有有效数据项的中值、取同一列所有有效数据项的均值、建模完成缺失值填充等,这里我们使用“取同一列所有有效数据项的均值”这种填充方法。 swM98A+7aqN/2wNlvyz5/CGzFM5pmnwF43kb7btJWPzMOoSRYqYUSJJA6rWN2D1G

点击中间区域
呼出菜单
上一章
目录
下一章
×