购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 量性数据与质性数据

在了解数据类型之前,我们首先要理解何谓数据,如果将两个汉字拆开,我们得到以下的解释,见图1.2.1。假设你去超市购买了100元的商品,这100元就是消费金额。结账后,超市会提供发票,上面包括了购买商品的凭证,二者合一为数据。

图1.2.1

在上述例子中,100元仅是对数值的衡量,但如果要对其采取进一步有价值的分析,我们需要使用维度(凭据)。例如,100元消费中,有20元购买了啤酒、80元购买了尿布,这就是从商品维度对数值的描述;结账的时间为2018年10月10日,这是从时间维度对数值的描述。同理,我们还可以从客户维度、地理维度对数值进行描述。虽然无论从哪个维度去汇总,我们得出的汇总都是100元,但因分析维度不同,由分析结果所产生的行为也会不同。在数据分析中,数值和维度是同时存在的,不可分割的。分析的维度越多,分析洞察就越有价值,数据粒度越细腻,见图1.2.2。

图1.2.2

接下来,我们了解数据的类型。总体上,数据可分为两大类:质性数据与量性数据。质性数据又称为分类型数据,又可细分为名义型数据与定序型数据。量性数据又称为数值型数据,又可细分为离散型数据与连续型数据,见图1.2.3。

图1.2.3

1.2.1 量性数据

量性数据是按数字尺度测量的观察值,其结果表现为具体的数值,如人数、钱数、地理面积等都是量性数据。离散型数据是指数值只能用自然数或整数为单位的数据,如家庭人数为1人或2人,不会有1.5人。而连续型数据是指用小数为单位可无限拆分的数据,如体重可以被细化至小数点后 N 位数。那么在可视化呈现上二者的区别在哪里呢?我们来看以下两个例子。

图1.2.4中 x 轴为年级序列、 y 轴为学生的平均身高。随着年级数的增长,学生的身高呈现持续增长的趋势。使用折线图能很好地表达这种持续增长的关系。

图1.2.4

图1.2.5为某家庭成员人数变化的趋势,同样是表示数据持续增长,但因为 y 轴为家庭人数,为离散性数据,用折线图表示每年的变化会导致一个问题,即年与年之间的变化表达并不精确,例如在2012—2013年间,家庭人数不可能为2.5人。

图1.2.5

为了更为准确地表达家庭人数的变化趋势,我们采用柱状图(见图1.2.6),每一年的数值都是相对独立的,这样的表达效果更为清晰。

图1.2.6

值得注意的是,数值型数据和分类型数据可以互相转换,例如身高,年龄这类数据既可以是数值型数据也可以被转化为分类型数据。

图1.2.7为客户年龄的分布统计,该图的 x 轴为客户的年龄值(数值型数据), y 轴为客户的计数。如果希望进一步分析人数最多的客户群,就需要将该数值型数据转换为分类型数据。

图1.2.7

1.2.2 质性数据

质性数据是指按照事物的某种属性对其进行分类或分组,而得到的反映事物类型的数据,又称为分类型数据。如年级、性别、品牌这些都是分类型数据。分类型数据又再细分为名义型(Nominal)数据与定序型(Ordinal)数据。名义型数据是指没有内在固有大小或高低顺序的分类型数据。例如国籍:中国籍、韩国籍、日本籍,等等,见图1.2.8。另外,像员工号10014369、10014370这类数据也是名义型数据,虽然是一串数值,但将其员工号汇总却没有任何实质意义。名义型数据只能计数而不能汇总。

等级型数据则是有高低顺序的分类型数据,例如之前赛马例子中的上等马、中等马、下等马,这些类型之间有高低之分,通常可以为定序型数据赋予数值排列,如用数值3、2、1代表上等马、中等马、下等马的能力,见图1.2.9。

图1.2.8

图1.2.9 DwICJ2QLuM4/RVXthWON4xY516pVgiSuwarUaxhKl87jrwKvg/WL3yDKdguwq8RZ

点击中间区域
呼出菜单
上一章
目录
下一章
×