data.table
是当前R中处理数据最快的工具,可以实现快速的数据汇总、连接、删除、分组计算等操作,具有稳定、速度快、省内存、特性丰富、语法简洁等特点。尽管如此,由于其函数语法结构相对来说较为抽象,对于初学者而言往往需要花更多的时间来掌握。
tidyfst
包应运而生,用以提高
data.table
代码的可读性和可维护性。
tidyfst
包参考了
tidyverse
体系的语法结构,让用户能够见名知义;同时,其底层由
data.table
代码构成,因此实现速度非常快。此外,对于较为复杂的
data.table
操作,
tidyfst
包提供了简便的调用函数进行实现。鉴于机器学习往往需要大量的训练样本,因此本书会以
data.table
包和
tidyfst
包作为主要的数据操作工具来对常用的数据操作进行介绍。用下面的代码可以对这两个包进行安装并加载:
library(pacman)
p_load(tidyfst,data.table)
需要特别注意的是,
data.table
有很多原位操作,这些操作会改变原始的数据框。这个特性在一些情况下提高了内存管理效率,但是也引入了很多不稳定因素,让用户不知道原始数据框已经发生了变化。因此,本章的操作会避免使用该特性。对这部分内容感兴趣的读者,可以参考官方文档进行学习。