Weka Explorer(探索者界面) 详解（1）

来源：互联网发布：淘宝店主跑路编辑：程序博客网时间：2024/04/30 04:18

打开Weka后在弹出的Weka GUI Chooser 中点击 Explorer，进入探索者界面。探索者界面是Weka最简单的使用界面。所有的Weka功能都能在这个界面中通过点击鼠标和表单填写来使用。由于很多选项都预设了常用的默认值，使用户以最小的代价取得结果。不过该界面也有缺点：它会把样本数据全部读入内存，所以分析的样本数据量不能太大。

在探索者界面有6个标签，我们一个一个说：

预处理标签 Preprocess

预处理标签主要提供三个功能：样本数据的读入，样本过滤和样本的预览。

weka支持三种读入数据的方式：arff格式、csv格式还有文本格式。arff格式的支持最好，所以建议把其他两种格式都转成arff格式再读入，转换时要注意文件的编码，最好是utf8。转换语句：

java weka.core.converters.CSVLoader filename.csv > filename.arffjava weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff

注意在文本转换的时候文件夹的名字表示类别，详见http://blog.csdn.net/chl033/article/details/4837232。

此外Weka还支持通过URL和数据库来读取样本，这里先按下不表。

预处理标签还有一个Filter功能来对样本的属性进行转换，对样本的实例进行操作。比如样本中有一个属性叫年龄为数值类型（1-150），可以用Discretize 过滤器进行离散，得到一个名词型的属性年龄段{少年，青年，中年，老年}。再比如实例过滤器中的NonSparseToSparse过滤器可以把样本实例转换成稀疏模式（购物篮分析中常用）。高端玩家还能自己编写过滤器。详见http://www.cnblogs.com/htynkn/archive/2012/04/02/weka_3.html 。

样本数据的概览以直观的图表展现了样本数据的类别和数量，不多说了。

分类器标签 Classify

Weka把大部分监督学习的算法都放在该标签中，包括了分类算法和回归算法。具体算法的选择在标签页最上面的下拉框中。

对于这个标签页我们着重讲讲 Test options。

监督学习的算法是指在已知样本类别的情况下生成分类器，然后用测试数据集调整分类器，提高准确度。在Test options（验证选项）中可以选择使用什么样的测试集。Use Training set 表示直接使用训练集做测试集。Supply test set表示使用另一个文件来做测试集。最下面还有一个Percentage Split 表示把训练集按百分比分割，一部分成为训练集一部分留作测试集。那么剩下的 cross validation（交叉验证）是什么意思呢？

交叉验证带有一个参数选择，默认为10，俗称十折交叉验证。对于一个数据样本，它先把数据随机地分割成10份。然后将1份数据集当做测试集，9份数据当做样本集，进行学习。再选另一份数据集作测试集，其余的数据做样本集，依次类推，共进行10次。确保每次测试集都不同。最后将10个误差率估计值平均而得出一个综合误差估计。

聚类标签 Cluster

聚类标签页的设计跟分类标签页类似，但在验证选项中没有交叉验证，取而代之的是 Class to clusters evaluation 选项。它表示根据样本集中的某个属性来分类，并以之为依据校验聚类结果，在聚类时会自动忽略这个设定的属性。