weka中文使用说明(四)

来源:互联网 发布:淘宝开发团队多少人 编辑:程序博客网 时间:2024/04/25 05:08

2.4关联规则

2.4.1 Associate面板介绍

Associate面板如图2.4.1-1。

图2.4.1-1 Associate面板

这个面板包含了学习关联规则的方案。这里的学习器也可以跟其它面板的聚类器,筛选器和分类器一样选择和配置。

为关联规则学习器设置好合适的参数后,点击Start按钮。

2.4.2 算法应用

注意:目前Weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。

我们打算对前面的“bank-data”数据作关联规则的分析。步骤如下:

1.        用“Explorer”打开data-bank.arff,由于关联规则只能对分类型数据进行处理所以要对数值型数据离散化。

2.        切换到“Associate”选项卡。

3.        默认关联规则分析是用Apriori算法,我们就用这个算法,但是点“Choose”右边的文本框修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。

4.        现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把lowerBoundMinSupport和upperBoundMinSupport分别设为0.1和1,metricType设为lift,minMetric设为1.5,numRules设为100。其他选项保持默认即可。

5.        在Explorer中点击Start开始运行算法,在右边窗口显示数据集摘要和挖掘结果。

部分运行结果如图2.4.2-1所示。


图2.4.2-1 关联分析部分运行结果

2.5 属性选择

2.5.1 Selectattributes面板介绍

属性选择面板如图2.5.1-1所示。


图2.5.1-1 属性选择面板

属性选择是说搜索数据集中全部属性的所有可能组合,找出预测效果最好的那一组属性。为实现这一目标,必须设定两个东西:属性评估器(evaluator)和搜索策略。评估器决定了怎样给一组属性安排一个表示它们好坏的值。搜索策略决定了要怎样进行搜索。

Attribute Selection Mode一栏有两个选项。

1.        Use full training set 使用训练数据的全体好决定一组属性的好坏。

2.        Cross-validation 一组属性的好坏通过一个交叉验证的过程来决定。Fold和Seed分别给出了交叉验证的折数和打乱数据时的随机种子。

和Classify部分一样,有一个下拉框来指定class属性。

2.5.2 执行选择

点击start按钮开始执行属性选择过程。它完成后,结果会输出到结果区域中,同时结果列表中会增加一个条目。在结果列表上右击,会给出若干选项。其中前面三个(View in main window,View in separate window和Save result buffe)和分类面板中是一样的。还可以可视化精简过的数据集(Visualize reduced data)或者如果使用过主成分分析那样的属性变换工具,则能可视化变换过的数据集(Visualize transformed)。精简过/变换过的数据能够通过Savereduced data或SaveTransformed data选项来保存。


0 0
原创粉丝点击