人们做演示的时候,会将数据整理为人类易读的表格形式。如果是表格形式的话,Excel等计算软件也可以简单地处理,但是用程序处理起来可能会很麻烦。
比如,像表1-3这样的表格数据,在人类看来是已经过整理、容易理解的数据,但是用程序处理的话会很麻烦。表1-4所示的数据虽然与表1-3中数据具有同样的意义,但是对程序而言处理起来就比较容易。
表1-3所示的那样的数据被称为“ 杂乱数据 ”(messy data),表1-4所示的那样的数据被称为“ 整齐数据 ”(tidy data)。tidy data一词是由哈德利·威克姆(Hadley Wickham)提出来的。他在论文中说明,整齐数据具有以下三个条件。即列表示项目,行代表一个数据。
①每个变量成一列。
②每个观察结果成一行。
③每种观察单位构成一个表格。
使用整齐数据的时候,如果我们想要得到人数的和,将人数列的数据相加就能求出结果。此外,如果我们想要了解某个部门的人数、男性女性分别的人数、哪个部门人数较多之类的信息,使用表计算软件对数据列进行筛选就能得到结果(图1-12)。
整齐数据的添加、删除、更新等操作也比较简单,重新排序也比较容易。
表1-3 杂乱数据的实例
表1-4 整齐数据的实例
图1-12 使用整齐数据的好处
要点
在表格数据之中,计算机容易处理的数据被称为“整齐数据”。
我们使用整齐数据时,比较容易进行数据的添加和删除的操作,以及排序和筛选等的分析。