机器学习全解（R语言版）最新章节_黄天元著

3.1　R数据操作包简介

data.table 是当前R中处理数据最快的工具，可以实现快速的数据汇总、连接、删除、分组计算等操作，具有稳定、速度快、省内存、特性丰富、语法简洁等特点。尽管如此，由于其函数语法结构相对来说较为抽象，对于初学者而言往往需要花更多的时间来掌握。 tidyfst 包应运而生，用以提高 data.table 代码的可读性和可维护性。 tidyfst 包参考了 tidyverse 体系的语法结构，让用户能够见名知义；同时，其底层由 data.table 代码构成，因此实现速度非常快。此外，对于较为复杂的 data.table 操作， tidyfst 包提供了简便的调用函数进行实现。鉴于机器学习往往需要大量的训练样本，因此本书会以 data.table 包和 tidyfst 包作为主要的数据操作工具来对常用的数据操作进行介绍。用下面的代码可以对这两个包进行安装并加载：

library(pacman)
p_load(tidyfst,data.table)

需要特别注意的是， data.table 有很多原位操作，这些操作会改变原始的数据框。这个特性在一些情况下提高了内存管理效率，但是也引入了很多不稳定因素，让用户不知道原始数据框已经发生了变化。因此，本章的操作会避免使用该特性。对这部分内容感兴趣的读者，可以参考官方文档进行学习。

3.1 R数据操作包简介

3.1　R数据操作包简介