Java调用Weka API创建Arff文件
来源:互联网 发布:淘宝修改评价链接 编辑:程序博客网 时间:2024/05/29 14:41
毕业设计是基于Web的数据挖掘系统,其中主框架使用了Spring MVC集成MyBatis,挖掘算法的实现采用了Weka提供的开源jar包。
在参考了:
Weka介绍
某个数据挖掘大牛的Weka总结
之后,完成了该系统的设计开发。
调用Weka算法的时候,需要的元数据格式为.arff文件,Arff文件相关介绍
这里简单介绍下构造arff文件的过程。
Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。
关键代码:
一开始需要实例化一个Vector来保存数据属性:
FastVector atts = new FastVector();// 保存属性
同时需要有保存单条数据
double[] vals;// arff保存单条数据
判断数据格式之后新建数据属性:
atts.addElement(new Attribute(numName));
之后填充数据:
vals[j] = instances.attribute(j).addStringValue("XXXXX");
总共就这么四步,完整代码:
/** * 创建合法格式的Arff文件 * * @param data 该参数为封装好的Data参数,数据类型为 * Map<String, List<Object>> * @return * @throws Exception */ public String createArffFile(Data data, int userID) throws Exception { FastVector atts = new FastVector();// 保存属性 double[] vals;// arff保存单条数据 // 创建List作为数据类型flag List<Object> indexList = new LinkedList<Object>(); // 获取data数据 wekaData = XMLParser.praseXML(data.getData_Content()); // 获取data中的第0行为title,第一行为判断数据类型 List<Object> titleList = wekaData.get("0"); List<Object> firstList = wekaData.get("1"); // 遍历title中的数据类型,为arff文件创建attribute for (int i = 0; i < firstList.size(); i++) { Object obj = firstList.get(i); String objStr = obj.toString(); if (isNumeric(objStr)) { indexList.add("Numeric"); String numName = String.valueOf(titleList.get(i)); atts.addElement(new Attribute(numName)); } else if (isValidDate(objStr)) { indexList.add("Date"); atts.addElement(new Attribute((String) titleList.get(i), "yyyy-MM-dd")); } else { indexList.add("String"); atts.addElement(new Attribute((String) titleList.get(i), (FastVector) null)); } } // 必须放在创建attribute之后 否则会报异常 Instances instances = new Instances(data.getData_Name(), atts, 0); // 创建一个weka // data实例 System.out.println(indexList); // 填充数据 for (int i = 1; i < wekaData.size(); i++) { vals = new double[instances.numAttributes()]; String index = String.valueOf(i); int length = wekaData.get(index).size(); System.out.println(length); // 遍历填充 for (int j = 0; j < length; j++) { if (indexList.get(j).equals("String")) { System.out.println("string"); vals[j] = instances.attribute(j).addStringValue((String) wekaData.get(index).get(j)); } else if (indexList.get(j).equals("Numeric")) { System.out.println("number"); System.out.println((String) wekaData.get(index).get(j)); double num = Double.valueOf((String) wekaData.get(index).get(j)); vals[j] = num; } } instances.add(new Instance(1.0, vals)); // end } System.out.println(instances.toString()); // IP时间戳工具 IPTimeStamp ipTimeStamp = new IPTimeStamp(); // 保存文件加时间戳重命名,防止不同文件重名覆盖 String fileName = ipTimeStamp.getIPTimeRand() + "_" + userID + "_" + data.getData_Name(); String path = configProperty.getArffPath() + fileName + ".arff"; File outFile = new File(path); FileUtils.writeStringToFile(outFile, instances.toString(), false); System.out.println("ArffPath" + configProperty.getArffPath()); return path; }
构建好的格式举例:K-means聚类样本.arff
@relation K-means聚类样本@attribute X numeric@attribute Y numeric@data0,01,00,11,12,11,22,23,26,67,68,66,77,78,79,77,88,89,88,99,9
同时也可以参考该论文:Java编程实现WEKA数据文件的生成
0 0
- Java调用Weka API创建Arff文件
- 在Java中使用weka:创建一个ARFF文件
- java调用weka,读取csv及arff文件,将csv转化为arff文件
- weka中的arff文件
- Weka中的ARFF文件
- 在java中调用weka聚类方法并显示相应的类标签+weka中创建arff数据
- 用Java创建weka需要的Instance对象和arff文件
- 在Eclipse(JAVA)中加载WEKA的ARFF文件
- Weka学习之用java构建ARFF文件
- weka关联的ARFF文件
- Weka学习之ARFF文件
- Weka项目中的ARFF文件结构解析
- Weka项目中的ARFF文件结构解析
- Weka项目中的ARFF文件结构解析
- weka中将Instances另存为一个arff文件
- 在Java中使用weka:将实例转化为ARFF文件
- java代码实现将无表头.txt文本文件转化为weka能识别.arff文件
- Java调用Weka API分类实例
- TI双核处理器ARM+DSP如何实现协同工作
- [图文]我的bower使用之旅
- KMP算法详解
- PAT Have Fun with Numbers
- leetcode 63. Unique Paths II
- Java调用Weka API创建Arff文件
- no module named numpy
- 修改zookeeper jvm参数
- 分布式倒置索引(MapReduce程序)
- 我在这世上活着,手无寸铁
- C语言中各种基本数据类型在内存中的存储方式
- 【DP_背包专辑】
- 大数据面试题
- 快速实现ARM和DSP的通信和协同工作(一)