从字段的类型上分类,数据可以分为文本类、数值类以及时间类。
文本类数据常用于描述性字段,如姓名、性别、地址、交易摘要等。这类数据不是量化值,不能直接用于计算。在使用时,可先对该字段进行标准化处理(如地址标准化)再进行字符匹配,也可直接模糊匹配。
文本类数据可以包含结构性字段,如标题、作者、出版日期、长度、分类等,也可以包含大量的非结构化数据,如摘要和内容等,因此,文本类数据既不是完全无结构的数据也不是完全结构化的数据。
顾名思义,数值类数据用于描述量化属性或用于编码。数值类数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大部分数据都是数值类数据,如收入/支出额度、交易流水、商品数量、降水量、客户积分以及满意度分值等都属于量化属性,这些数据可直接用于运算,是日常计算指标的核心字段。而邮政编码、身份证号码、卡号之类的则属于编码,是对多个枚举值进行有规则编码,可进行四则运算,但没有实质业务含义,不少编码都作为维度存在。
时间类数据仅用于描述事件发生的时间。时间是一个非常重要的维度,能够呈现物质运动、变化的持续性、顺序性表现。时间类数据虽然看起来较为简单,但其在业务统计或分析中非常重要。