weka中文使用(一)

来源:互联网 发布:极点五笔 centos 编辑:程序博客网 时间:2024/05/01 23:34

1      Weka简介

1.1 Weka说明

Weka是由新西兰怀卡托大学开发的,全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis)。在怀卡托大学以外的地方,Weka通常按谐音读Mecca,是一种现金仅存活于新西兰的具有好奇心的不会飞的鸟。它作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。

1.2Weka获取、安装

WEKA的源码可通过以下网址获取:http://www.cs.waikato.ac.nz/ml/weka

WEKA是用JAVA写成的,并且限制在GNU通用公众证书的条件下发布。它可运行于几乎所有的操作平台。在已经测试过的平台包括Linux,Windows和Macintosh操作系统。用户既可以下载一个与具体操作系统相匹配的安装文件,也可以下载一个可执行的JAVA文件包(jar file),然后在已安装了JAVA的机器上以通常的方式运行。

2      Explorer界面

通过Weka的主要图形界面Explorer,其所有的功能皆可以通过菜单选择或表单填写的方式访问。图2-0展示了刚进入的Explorer界面。在Explorer的顶部有六个不同的标签表示六个不同的面板,分别对应着Weka所支持的不同的数据挖掘方式。


图2-0 Explorer界面

2.1预处理

为了让初次使用Weka的用户对其有个初步的了解,我们先从处理一部分数据开始着手。首先,用户需要准备数据,启动Explorer界面并载入数据。

2.2.1 准备数据

数据通常存储在电子数据表或数据库中。然而Weka存储数据的方式是ARFF格式(关于ARFF格式详情见附录A)。使用WEKA作数据挖掘,面临的第一个问题往往是我们的数据不是ARFF格式的。幸好,WEKA还提供了对CSV文件的支持,而这种格式是被很多其他软件所支持的。

Excel默认文件格式为XLS,我们可以把每个工作表(sheet)存成不同的CSV文件。方法为打开一个XLS文件并切换到需要转换的工作表,另存为CSV类型,点“确定”按钮并忽略提示信息即可完成操作。 这里以bank-data.xls为例(bank-data.xls可以从以下网址获取http://facweb.cs.depaul.edu/mobasher/classes/ect584/WEKA/preprocess.html)。

2.2.2 将数据导入Explorer

进入Explorer模块,点击界面上方的按钮“open file”打开文件选择面板,将面板下方的文件类型选择“所有文件”,找到转化的CSV文件即可将数据导入到Explorer如图2.2.2-1。 点击面板上方的“save”按钮即可将文件保存为ARFF格式。


图2.2.2-1 导入数据后的Explorer界面

图2.2.2-1显示的是使用Explorer打开"bank-data.csv"的情况。我们根据不同的功能把这个面分成8个区域。 区域1的几个选项卡是用来切换不同的挖掘任务面板。具体功能如下:

Preprocess(预处理):选择数据集,并以多种方式对其进行修改

Classify(分类):训练用做分类或回归的学习方案,并对他们做出评估

Cluster(聚类):学习数据集的聚类

Associate(关联):学习数据的关联规则并对其评估

Select attributes(选择属性):在数据集中选择最相关的部分

Visualize(可视化):查看不同的二维数据点图并与其互动

区域2是一些常用按钮。包括打开数据,保存及编辑功能。

在区域3(Filter)中点击“Choose”按钮可以选择某个Filter(过滤器),可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。

 区域4(Current relation)展示了数据集的一些基本情况。

 区域5(Attributes)列出了数据集的所有属性。勾选一些属性并点击“Remove”按钮就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。

区域6(Selected attributes)是区域5中选中属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“age”的摘要。

区域7是区域5中选中属性的直方图。若数据集的最后一个属性(这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。

 区域8是状态栏,可以查看Log以判断是否有错。右边的Weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。

0 0
原创粉丝点击