有时候,由于一些变量非常重要,缺失数据也不多,在分析前可以对缺失值进行填补。在Pandas中,fillna()是最主要的填补手段,通过调用fillna()可将缺失值替换为指定值,其格式为:DataFrame.fillna(value= None , method= None , axis= None , inplace= False , limit= None , downcast= None )。其中常见参数说明见表4-2。
表4-2 fillna()函数常见参数说明
以表4-3数据为例,以均数填补年龄的缺失值,以后面行数据填补性别的缺失值,同时填补文化和年收入的缺失值指定为3和5.5,如代码清单4-17所示。
表4-3 缺失数据资料
代码运行结果如下: