R语言分析分析大数据的一些问题

来源:互联网 发布:怎么学好数据库 编辑:程序博客网 时间:2024/03/29 02:49

大数据分析包


首先讲一下,处理大数据的data.table包特别好用,读入读出函数、连接函数、提取查询函数等。
或许你的电脑是4G内存,i5,我的电脑就是,32位,应该属于最低配置了,且C盘内存所剩无几,处理600万左右样本一般没问题。然而稍微大一些,导入数据时会提醒内存不足,再大些的数据量就会提醒需要升级64位信息。
若是做数据分析的,最好配置高一些的电脑,用了8G,i7,处理2000万左右速度的化还是可以。


从数据库导出的数据data.table包读入也许读不了


比如从SQL server直接右击导出逗号分隔的csv文件,fread()读入到R中时,不管怎样设置参数都提醒导入不了,提醒一长串,说是数据集第几行有问题,此时查看,也许会有某一变量的一个取值有问题,比如会员信息表下面有一个会员电话号码变量,某一个会员也许登记了两个电话号码,格式为‘xxxxxxxxxx,xxxxxxxxxxxxx’,那么问题来了,逗号分隔的文件,在读取此行时会错乱的,此行多了一个逗号。破解之法,最好的就是导出数据时导出制表分隔的txt文件,读入时加入sep=’\t’参数即可读入。


当在R中处理大数据时,适当释放内存


在R中处理很多变量文件数据时,内存占用很大,速度会变慢,此时需要适当释放内存。在保证数据保存的前提下,R的内存释放rm()也许解决不了问题,可以用一下gc(),释放内存量也会显示出来,gc()一下,之前处理的数据,变量全部释放。


原创粉丝点击