图1.36所示是奶茶店的部分数据截图,包括店铺名称、评论数、客单价、所在区域、店铺类型和团购一共6个变量(数据文件:习题1.1.xlsx)。请对该数据进行清洗,完成以下任务。
1.将店铺名称分为品牌名称和分店地址两个变量。
2.将以文本形式存储的评论数和客单价转换为数值。
3.所在区域中有的含有“/”,删除该符号。
4.将团购中的价格信息提取为定量变量。
5.剔除重复值。
6.剔除缺失值。
7.检查数据中是否存在异常值。
8.统计每个变量的观测值个数。
图1.36 习题1.1的部分数据
图1.37所示是一份关于在线教学的调查问卷部分数据(数据文件:习题1.2.xlsx)。该数据中数值代码的含义如下。
性别:1=男性,2=女性。
你是否使用纸质版的教材:1=用,2=不用。
你最常用的上网方式:1=手机流量,2=Wi-Fi。
请对该数据进行清洗,完成以下任务。
1.将性别的观测值转换为“男”和“女”。
2.将你是否使用纸质版的教材的观测值转换为“用”和“不用”。
3.将你使用的电子设备的观测值转换为适合处理的形式。
4.将你最常用的上网方式的观测值转换为“手机流量”和“Wi-Fi”。
5.剔除缺失值。
6.检查数据中是否存在异常值。
7.统计每个变量的观测值个数。
图1.37 习题1.2的部分数据