Weka项目中的ARFF文件结构解析
来源:互联网 发布:js刷新当前页面的方法 编辑:程序博客网 时间:2024/05/16 00:26
Weka作为数据挖掘开源项目中的经典,很多算法和数据的组织结构是值得学习的。Weka里面大量使用了一种叫做arff(Attribute-Relation File Format )的数据文件结构。这种arff文件内部结构很简单,主要是测试算法使用的轻量级的数据文件结构。OpenMiner继承Weka的风格,也打算支持arff文件格式,并且作为前期的挖掘算法测试数据来源。下面是我从网上找到的关于这种文件格式的网址http://www.cs.waikato.ac.nz/~ml/weka/arff.html
ARFF文件格式很简单,从Weka里面都可以找到一些它的例子:
@relation weather
@attribute outlook
@attribute temperature real
@attribute humidity real
@attribute windy
@attribute play
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
不用多说,直接看,大致都能明白这个数据文件的意思了。
在读取arff文件的时候,有点是需要注意到的。在Java中,InputStream,DataInputStream这些类都不支持mark和reset,也就是说不能倒回去再读。而ByteArrayInputStream支持mark和reset,但是arff文件作为一个数据源文件,可能包含几十MB,甚至是几百MB。。。的数据,如果全部先读进内存,再从内存中解析,恐怕并不可行。还好Java中实现了BufferedInputStream,它可以预读8192个字节的缓冲,内存中的读完后,再从输入流中继续读8192个字节的缓冲,并且支持mark和reset,这就是我在Java里面自己实现解析arff时候的主要技术问题所在。至于字符串的解析就很简单了。
- Weka项目中的ARFF文件结构解析
- Weka项目中的ARFF文件结构解析
- Weka项目中的ARFF文件结构解析
- weka中的arff文件
- Weka中的ARFF文件
- weka中的arff格式数据
- weka关联的ARFF文件
- Weka学习之ARFF文件
- weka中将Instances另存为一个arff文件
- Java调用Weka API创建Arff文件
- weka怎么把csv文件转化成arff文件
- java调用weka,读取csv及arff文件,将csv转化为arff文件
- 在Java中使用weka:创建一个ARFF文件
- 在Eclipse(JAVA)中加载WEKA的ARFF文件
- weka-Oracle数据库连接及以ARFF文件导出[2]
- weka-mysql数据库连接及以ARFF文件导出[3]
- weka学习[1]_Eclipse中读取arff文件
- weka-Oracle数据库连接及以ARFF文件导出[2]
- SQL2005开启选项的一些方法整理
- 最详细的国内各银行收费情况一览
- 教学团队能给高校带来什么
- 怎样使用DataGrid控件
- Hibernate抛异常Could not execute JDBC batch update
- Weka项目中的ARFF文件结构解析
- 从世界杯看软件团队建设和管理
- 给Windows减肥
- 构建Windows Server 2008虚拟测试实验室
- 入侵oracle数据库的一些心得
- Joe的故事
- IT程序员喝酒喝出的计算机文化
- asp.net调用存储过程方法新解
- C编码风格