R语言是一门面向数据的语言,因此用户必须熟悉R体系中的基本数据类型。R中常用的数据类型包括数值型、逻辑型、字符型和因子型4种,以下一一进行介绍。
数值型,顾名思义就是数字,如19960524。可以用 class函数 来查看数据的类型。
可看到,这是一个数值型。其实数值还有更深层的分类,就是整数型和双精度型,可以用来表示整数和正整数。如果要表示整数,一般在数字后面加入“L”。可以用 typeof函数 来看到细分的数据差别。
R中还有一种数据类型叫作复数型,可以表示数学中的虚数,表示方法如下。
由于在文本数据挖掘中不常用,这里不展开介绍这种数据类型。
逻辑型的数据,一般是指非黑即白的两种:真(TRUE)与假(FALSE)。
TRUE和FALSE都是R中的保留字符,它们还可以分别简写为T和F。
值得注意的是,R中表示缺失值的保留字NA也是逻辑型数据。
字符型就是字符串,在文本数据挖掘中,所有文本格式的数据都属于这种类型,如“R语言”“文本数据挖掘”,就都是字符串。
因子型是R中独特的数据结构,它代表了字符与数字的映射关系,可以表示离散型的数据。
使用 levels函数 可以看到因子变量的等级。