文本数据挖掘：基于R语言最新章节_黄天元著

2.3 R的常用数据结构

在实际应用中，数据总是以一定的形式组织起来，在R中也有对应的数据结构来表达这些组织形式。在本节中，将会对R语言中常用的数据结构（向量、矩阵、列表、数据框）进行介绍。

2.3.1 向量

在 2.2节中介绍了数据类型，包括数值型、字符型、因子型等，这些具有相同数据类型的多个数据单位组合到一起，可以构成一个向量（Vector）。在R中，可以利用 c函数 来构造一个向量，如下所示。

还可以用 is.vector函数 来判断变量是否为一个向量。

2.3.2 矩阵

矩阵（Matrix）的本质是一个二维数组，具有行和列两个维度。在R中，可以使用 matrix函数 来构造一个矩阵。例如，构造一个名为mdat的矩阵，其中行名称为row1和row2，列名称为C.1、C.2和C.3，具体代码如下所示。

需要注意的是，行列的名称是可以缺省的。

可以使用 is.matrix函数 来判断数据是否为一个矩阵。

2.3.3 列表

列表（List）是R中最为灵活的数据结构，它就像一列火车，每个车厢中都可以放任意类型的数据。下面举个例子，把逻辑变量TRUE（简写为T）、数值变量1和字符变量“hello”同时打包放在列表变量a_list中，如下所示。

使用 is.list函数 可以判断一个数据是否为一个列表。

2.3.4 数据框

数据框（Data Frame）是R中重要的数据结构，能够表达传统数据库中的二维表结构。它是一种特殊的列表，它每一列是一个向量（具有数据类型同质性），每一行是一个列表（单个样本可以有不同数据类型的属性）。一般而言，数据框一定会有列名称来描述属性，而行名称则可有可无，因为行名称可以新增一列来进行表示。在R中，可以使用 data.frame函数 来构建一个数据框。

可以使用 names函数 来获得该数据框的列名称。

如果想要获知一个数据框的维度（它有几行几列），可以使用 dim函数 获取。

与之前类似，可以用 is.data.frame函数 来判断一个数据是否为数据框结构，如下所示。