通过weka.jar包来进行数据预处理

来源:互联网 发布:js保留三位小数 编辑:程序博客网 时间:2024/05/01 07:41

打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path  ->选择Libraries  ->点击Add External JARs  ->然后到你的jar包所在路径选择它。即可。

一、特征选择


[java] view plain copy
 print?
  1. package learning;  
  2.   
  3. import weka.attributeSelection.ASEvaluation;  
  4. import weka.attributeSelection.InfoGainAttributeEval;  
  5. import weka.attributeSelection.Ranker;  
  6. import weka.core.Instances;  
  7. import weka.core.converters.ConverterUtils.DataSink;  
  8. import weka.core.converters.ConverterUtils.DataSource;  
  9. import weka.filters.Filter;  
  10. import weka.filters.supervised.attribute.AttributeSelection;  
  11.   
  12.   
  13. /**feature selection via weka 
  14.  *  
  15.  * @author wenbaoli 
  16.  * 
  17.  */  
  18. public class featureSelect {  
  19.   
  20.     /** 
  21.      *  
  22.      * @param arg 
  23.      */  
  24.     public static void main(String[] arg){  
  25.           
  26.         try {  
  27.   
  28.             System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");  
  29.               
  30.             System.out.println("Step1:load data...");  
  31.             String fn = "E:/weka/data/iris.arff";  
  32.             DataSource source = new DataSource(fn);  
  33.             Instances instances = source.getDataSet();  
  34.               
  35.             System.out.println("Step2:feature selction...");  
  36.             featureSelect fs = new featureSelect();  
  37.               
  38.             int k = 2;  
  39.             AttributeSelection as = new AttributeSelection();  
  40.               
  41.             Ranker rank = new Ranker();  
  42.             rank.setThreshold(0.0);  
  43.             rank.setNumToSelect(k);  
  44.               
  45.             ASEvaluation ae = new InfoGainAttributeEval();  
  46.           
  47.             as.setEvaluator(ae);  
  48.             as.setSearch(rank);  
  49.             as.setInputFormat(instances);  
  50.             Instances reductData = Filter.useFilter(instances, as);  
  51.               
  52.             System.out.println("Step3:保存规约后的数据到新文件...");  
  53.             DataSink.write("E:/weka/data/iris_reducted.arff", reductData);  
  54.             System.out.println("Finished...");  
  55.               
  56.               
  57.         } catch (Exception e) {  
  58.             e.printStackTrace();  
  59.         }     
  60.     }  
  61.       
  62. }  

二、缺失值处理

[java] view plain copy
 print?
  1. package learning;  
  2.   
  3. import weka.core.Instances;  
  4. import weka.core.converters.ConverterUtils.DataSink;  
  5. import weka.core.converters.ConverterUtils.DataSource;  
  6.   
  7.   
  8. /**Missing value Handling via weka 
  9.  *  
  10.  * @author wenbaoli 
  11.  * 
  12.  */  
  13. public class missingHandle {  
  14.   
  15.     /** 
  16.      *  
  17.      * @param arg 
  18.      */  
  19.     public static void main(String[] arg) {  
  20.           
  21.         try {  
  22.             System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");  
  23.               
  24.             System.out.println("Step1:load data...");  
  25.               
  26.             String fn = "E:weka/data/labor.arff";  
  27.               
  28.             DataSource source = new DataSource(fn);  
  29.               
  30.             Instances instances = source.getDataSet();  
  31.             int dim = instances.numAttributes();  
  32.             int num = instances.numInstances();  
  33.               
  34.             System.out.println("Step2:缺失值处理...");  
  35.             double[] meanV = new double[dim];  
  36.             for (int i = 0; i < meanV.length; i++) {  
  37.                 meanV[i] = 0;  
  38.                 int count = 0;  
  39.                 for (int j = 0; j < num; j++) {  
  40.                     if(!instances.instance(j).isMissing(i)){  
  41.                         meanV[i] += instances.instance(j).value(i);  
  42.                         count++;  
  43.                     }  
  44.                 }  
  45.                 meanV[i] = meanV[i]/count;  
  46.                 System.out.println(meanV[i]);  
  47.             }  
  48.               
  49.               
  50.             for (int i = 0; i < meanV.length; i++) {  
  51.                 meanV[i] = 0;  
  52.                 int count = 0;  
  53.                 for (int j = 0; j < num; j++) {  
  54.                     if(instances.instance(j).isMissing(i)){  
  55.                         instances.instance(j).setValue(i, meanV[i]);  
  56.                     }  
  57.                 }  
  58.                   
  59.                   
  60.             }  
  61.               
  62.             System.out.println("Step3:保存数据到新文件...");  
  63.               
  64.             DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);  
  65.             System.out.println("Finished.");  
  66.         } catch (Exception e) {  
  67.             e.printStackTrace();  
  68.         }  
  69.           
  70.           
  71.     }  
  72. }  

三、归一化处理

[java] view plain copy
 print?
  1. package learning;  
  2.   
  3.   
  4.   
  5. import weka.core.Attribute;  
  6. import weka.core.Instance;  
  7. import weka.core.Instances;  
  8. import weka.core.converters.ConverterUtils.DataSink;  
  9. import weka.core.converters.ConverterUtils.DataSource;  
  10. import weka.filters.Filter;  
  11. import weka.filters.unsupervised.attribute.Normalize;  
  12.   
  13.   
  14. /**normalize data via weka 
  15.  *  
  16.  * @author wenbaoli 
  17.  * 
  18.  */  
  19. public class normalizeTest {  
  20.   
  21.     /** 
  22.      *  
  23.      * @param arg 
  24.      */  
  25.     public static void main(String[] arg) {  
  26.           
  27.           
  28.         String file = "cpu.arff";  
  29.         String file_norm = "norm_" + file;  
  30.         //对数据进行归一化  
  31.         try {  
  32.         System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");  
  33.           
  34.         System.out.println("Step1:读取数据...");  
  35.         DataSource source = new DataSource("E:/Weka/data/" + file);  
  36.         Instances instances = source.getDataSet();  
  37.           
  38.         System.out.println("Step2:原数据打印...");  
  39.         System.out.println("---------------------------------");  
  40.         int attributeNo = instances.numAttributes();  
  41.         for (int i = 0; i < attributeNo; i++) {  
  42.             Attribute attr = instances.attribute(i);  
  43.             System.out.print(attr.name() + "\t");  
  44.               
  45.         }  
  46.         System.out.println();  
  47.           
  48.         int instanceNo = instances.numInstances();  
  49.         for (int i = 0; i < instanceNo; i++) {  
  50.             Instance ins = instances.instance(i);  
  51.             System.out.print(ins.toString() + "\t");  
  52.             System.out.println();  
  53.         }  
  54.           
  55.         System.out.println("Step3:归一化...");  
  56.         Normalize norm = new Normalize();  
  57.         norm.setInputFormat(instances);  
  58.           
  59.         //归一化关键步骤:  
  60.         Instances newInstances = Filter.useFilter(instances, norm);  
  61.           
  62.         System.out.println("Step4:归一化之后的数据(打印)...");  
  63.         System.out.println("---------------------------------");  
  64.           
  65.         //打印属性名  
  66.         int numOfAttributes = newInstances.numAttributes();  
  67.         for (int i = 0; i < numOfAttributes; i++) {  
  68.             Attribute attribute = newInstances.attribute(i);  
  69.             System.out.print(attribute.name() + "\t");  
  70.               
  71.         }  
  72.         System.out.println();  
  73.           
  74.         //打印实例  
  75.         int numOfInstance = newInstances.numInstances();  
  76.         for (int i = 0; i < numOfInstance ; i++) {  
  77.             Instance instance = newInstances.instance(i);  
  78.             System.out.print(instance.toString() + "\t");  
  79.             System.out.println();  
  80.         }  
  81.         //发现一个问题:这把标签label也给归一化了。。。。。。。。。。这样可以吗???????  
  82.           
  83.         System.out.println("Step5:保存归一化的新数据到新文件...");  
  84.         System.out.println("-----------------------");  
  85.         DataSink.write("E:/Weka/data/" +file_norm, newInstances);  
  86.         System.out.println("Congratulations.");  
  87.         } catch (Exception e) {  
  88.             e.printStackTrace();  
  89.         }  
  90.           
  91.           
  92.     }  
  93. }  
0 0
原创粉丝点击