Weka加载大数据量内存不足的解决办法
来源:互联网 发布:宜兴俊知 编辑:程序博客网 时间:2024/06/01 10:06
150M的训练集用WEKA做起来应该比较困难有这么几个办法:
1 增加内存。 其实WEKA不光可以用物理内存,还可以占用虚拟内存。把JAVA的可用内存设置成2G的话,如果机器的物理内存只有1G,操作系统是会在需要时自动在硬盘上划分一块出来作为虚拟内存的。不过这时候一般会处理得比较慢,因此不推荐这个方法。
2 抽样。从训练集中随机抽取一部分数据来作训练。在二分类的时候,一般样本数量达到几千个时就能预测得比较准确了。如果几千个样本还不怎么准,那要么是所用的分类算法不适合,要么数据中的输入变量根本无法预测目标变量。
我试过了KDD 99中“kddcup.data_10_percent” 数据集,接近50万条数据,做成ARFF文件后有70多M。在Explorer中10来秒就载入了,抽取1%的样本仅花了几秒钟。
3 增量学习(Incremental Learning)。所谓增量学习简单的说就是读取一条训练数据就修正一下模型,而不是把全部训练数据都读入之后才得到模型。在WEKA KnowledgeFlow 中支持增量学习算法。目前WEKA中有5种算法可以在这种方式下工作:NaiveBayesUpdateable, IB1, IBk, LWR。另外RacedIncrementalLogitBoost可以让任意的基于回归的算法来增量地学习分类任务。
要注意的是,有时候数据不是ARFF格式的,而是C45,CSV等格式。这时手动把数据转换成ARFF,会节省很多内存,并且数据集中的错误更容易被检测出来。
from:http://john2007.javaeye.com/blog/267181
0 0
- Weka加载大数据量内存不足的解决办法
- Weka加载大数据量内存不足的解决办法
- WEKA内存不足的处理办法
- 大数据量一般解决办法
- 大数据量一般解决办法
- 大数据量系统优化 解决办法
- ztree 一次性加载大数据量
- 【人工智能】软件使用--weka如何处理大数据量
- Bitmap循环加载图片出现内存不足解决办法
- 优化iPhone中大数据量列表的加载
- 优化iPhone中大数据量列表的加载
- Ubuntu下内存不足的解决办法
- 大数据量的处理
- 大数据量的算法
- 大数据量的导入
- 大数据量的算法
- 大数据量的算法
- 大数据量的处理
- Android C 语言读取系统属性
- 【转】windows配置PHP5.5.6+Apache…
- Python3.x下pickle模块的注意点
- Class 'org.apache.comm…
- RapidMiner介绍以及常用问题
- Weka加载大数据量内存不足的解决办法
- crm取消发送给Microsoft的数据的弹出框
- 分享一个C#Socket TCP连接类
- TreeMap集合的应用根据学生的年龄或者姓名排序
- proc中插入VARCHAR2字段报ORA-01461: can bind a LONG value only for insert into a LONG column
- android-自定义View-GridListView(仿Q空间好友动态列表图片展示方式)
- Device Tree Usage(设备树用法)
- socket通讯2
- 版本控制学习七种武器(Git)