购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1 R数据操作包简介

data.table 是当前R中处理数据最快的工具,可以实现快速的数据汇总、连接、删除、分组计算等操作,具有稳定、速度快、省内存、特性丰富、语法简洁等特点。尽管如此,由于其函数语法结构相对来说较为抽象,对于初学者而言往往需要花更多的时间来掌握。 tidyfst 包应运而生,用以提高 data.table 代码的可读性和可维护性。 tidyfst 包参考了 tidyverse 体系的语法结构,让用户能够见名知义;同时,其底层由 data.table 代码构成,因此实现速度非常快。此外,对于较为复杂的 data.table 操作, tidyfst 包提供了简便的调用函数进行实现。鉴于机器学习往往需要大量的训练样本,因此本书会以 data.table 包和 tidyfst 包作为主要的数据操作工具来对常用的数据操作进行介绍。用下面的代码可以对这两个包进行安装并加载:

library(pacman)
p_load(tidyfst,data.table)

需要特别注意的是, data.table 有很多原位操作,这些操作会改变原始的数据框。这个特性在一些情况下提高了内存管理效率,但是也引入了很多不稳定因素,让用户不知道原始数据框已经发生了变化。因此,本章的操作会避免使用该特性。对这部分内容感兴趣的读者,可以参考官方文档进行学习。 arhq90RvK9OsQJ2HXladJS3qZr1wbBH0P1d8EznYGQpmeC+BUxy1aACV5NU5VWVO

点击中间区域
呼出菜单
上一章
目录
下一章
×