在分析之前,我们必须先把数据读入R环境中;在数据分析之后,常常需要把数据保存在文件中。二维数据表在R语言中是以data.frame形式存在的,我们常常把这样的数据结构保存为csv文件(逗号分隔符文件),因为它比较通用,可以在各个软件平台中操作。在data.table包中可以使用
fread
和
fwrite
函数对csv格式的文件进行读写。举例来说,例如我们要把内置的iris数据框放在D盘根目录下,可以这样操作:
fwrite(iris,"D:/iris.csv")
如果要把文件重新读入R环境,实现代码如下:
ir = fread("D:/iris.csv")
这样,我们就把文件读入R环境的
ir
变量中。如果需要保存规模较大的数据,可以使用tidyfst包的
import_fst
和
export_fst
函数来进行数据读写,其数据保存格式为以fst为扩展名的二进制文件。它的特点就是数据高保真、读写速度快和压缩效果好,因此保存下来的fst文件往往要比csv格式占用内存更小。还是以上面的iris数据集为例,其文件读写代码如下:
# 导出
export_fst(iris,"D:/iris.fst")
# 导入
ir = import_fst("D:/iris.fst")