购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6.2 使用R语言操作大型数据集

前面提到,R语言的第二大劣势与大型数据集的处理有关。那么,这个劣势来自哪里呢?实际上,这个劣势与R语言的核心机制有关,R语言是一个内存软件。也就是说,在R语言脚本中创建和管理的每一个对象都存储在计算机的RAM中。这意味着数据的总大小不能超过RAM的总大小(前提是其他软件没有占用RAM,但这是不切实际的)。那么,如何克服这个劣势呢?答案实际上超出了本书所要讲解的范围。尽管如此,作者在此简单地总结出3种应对策略。

● 优化代码,使用profvis等程序包对代码进行分析,并遵循R语言编程最佳实践。

● 使用外部数据存储和整理工具,如Spark、MongoDB和Hadoop。在后文中,会对此做进一步介绍。

● 使用ff、filehash、R.huge或者bigmemory等程序包来改变R语言内存处理行为,以尽量避免内存过载。

作为作者,我想要强调的是,这个劣势实际上是可以克服的。对于刚刚开始R语言学习之旅的初学者,在遇到这个劣势时不必担心。

最后补充说明:随着获取计算能力的成本越来越低,与大型数据集处理相关的问题就会显得越来越微不足道。 TSwaebUKLeyCqn5O0EVASFVS2WL71jUyxidLzN0aHmHoqlF6XuBH4tDuWCtbNs/S

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开