weka的使用

来源:互联网 发布:战舰世界登录软件 编辑:程序博客网 时间:2024/05/04 13:27

2.2实验数据集:UCI Spambase Data Set

UCI数据集是是一个常用的标准测试数据集,是数据挖掘界中的公共测试数据集,由美国加州大学欧文分校(University of California Irvine)贡献,目前共有187个数据集,其数目还在不断增加。UCI数据集告诉了读者数据的属性和类别,用户可以用自己的数据挖掘方法去将 UCI 数据集进行分类,将结果与数据说明的结果对比,说明自己算法的正确性。

本次考核选用了其中的垃圾邮件数据集Spambase数据集,该数据集包含了4601 封邮件,其中2788 封垃圾邮件,1813 封正常邮件。

下载地址:http://archive.ics.uci.edu/ml/datasets/Spambase

     要求:了解数据集各分类属性的含义。

         Spambase数据集中的属性:

              word_freq_make

             word_freq_address

              word_freq_all

              word_freq_3d

              word_freq_our

              word_freq_over

              word_freq_remove

             word_freq_internet

              word_freq_order

              word_freq_mail

             word_freq_receive

              word_freq_will

              word_freq_people

              word_freq_report

             word_freq_addresses

              word_freq_free

             word_freq_business

              word_freq_email

              word_freq_you

              word_freq_credit

              word_freq_your

              word_freq_font

              word_freq_000

              word_freq_money

              word_freq_hp

              word_freq_hpl

              word_freq_george

              word_freq_650

              word_freq_lab

              word_freq_labs

              word_freq_telnet

              word_freq_857

              word_freq_data

              word_freq_415

              word_freq_85

             word_freq_technology

              word_freq_1999

              word_freq_parts

              word_freq_pm

              word_freq_direct

              word_freq_cs

             word_freq_meeting

             word_freq_original

             word_freq_project

              word_freq_re

              word_freq_edu

              word_freq_table

             word_freq_conference

              char_freq_;

              char_freq_(

              char_freq_[

              char_freq_!

              char_freq_$

              char_freq_#

             capital_run_length_average

             capital_run_length_longest

              capital_run_length_total


第一步:将题目中所给的57个属性复制,去掉空格键,复制到excel里面,然后将列转制成行




第二步:将下载的Spambase中的文件 spambase.data以excel的方式打开,格式很乱,然后通过excel中的“分列”功能,更改格式,然后将57个属性复制到data中,然后发现缺少一属性,然后加一个属性yn,保存








第三步:将excel中,以csv的后缀名保存,然后用weka打开



第四步:将数值属性离散化,点击ALL,点击CHOOSE,选择discretize,然后apply



离散化后,保存为arff格式






第五步:用UltreEdit打开这个arff文档,然后将第58个属性yn中的数值属性改为{0,1},保存为arff格式

 

第六步:用j48分类








在choose中,选择j48,按start,



第七步:生成决策树,在Resultlist中生成









0 0