weka的使用
来源:互联网 发布:战舰世界登录软件 编辑:程序博客网 时间:2024/05/04 13:27
2.2实验数据集:UCI Spambase Data Set
UCI数据集是是一个常用的标准测试数据集,是数据挖掘界中的公共测试数据集,由美国加州大学欧文分校(University of California Irvine)贡献,目前共有187个数据集,其数目还在不断增加。UCI数据集告诉了读者数据的属性和类别,用户可以用自己的数据挖掘方法去将 UCI 数据集进行分类,将结果与数据说明的结果对比,说明自己算法的正确性。
本次考核选用了其中的垃圾邮件数据集Spambase数据集,该数据集包含了4601 封邮件,其中2788 封垃圾邮件,1813 封正常邮件。
下载地址:http://archive.ics.uci.edu/ml/datasets/Spambase
要求:了解数据集各分类属性的含义。
Spambase数据集中的属性:
word_freq_make
word_freq_address
word_freq_all
word_freq_3d
word_freq_our
word_freq_over
word_freq_remove
word_freq_internet
word_freq_order
word_freq_mail
word_freq_receive
word_freq_will
word_freq_people
word_freq_report
word_freq_addresses
word_freq_free
word_freq_business
word_freq_email
word_freq_you
word_freq_credit
word_freq_your
word_freq_font
word_freq_000
word_freq_money
word_freq_hp
word_freq_hpl
word_freq_george
word_freq_650
word_freq_lab
word_freq_labs
word_freq_telnet
word_freq_857
word_freq_data
word_freq_415
word_freq_85
word_freq_technology
word_freq_1999
word_freq_parts
word_freq_pm
word_freq_direct
word_freq_cs
word_freq_meeting
word_freq_original
word_freq_project
word_freq_re
word_freq_edu
word_freq_table
word_freq_conference
char_freq_;
char_freq_(
char_freq_[
char_freq_!
char_freq_$
char_freq_#
capital_run_length_average
capital_run_length_longest
capital_run_length_total
第一步:将题目中所给的57个属性复制,去掉空格键,复制到excel里面,然后将列转制成行
第二步:将下载的Spambase中的文件 spambase.data以excel的方式打开,格式很乱,然后通过excel中的“分列”功能,更改格式,然后将57个属性复制到data中,然后发现缺少一属性,然后加一个属性yn,保存
第三步:将excel中,以csv的后缀名保存,然后用weka打开
第四步:将数值属性离散化,点击ALL,点击CHOOSE,选择discretize,然后apply
离散化后,保存为arff格式
第五步:用UltreEdit打开这个arff文档,然后将第58个属性yn中的数值属性改为{0,1},保存为arff格式
第六步:用j48分类
在choose中,选择j48,按start,
第七步:生成决策树,在Resultlist中生成
- weka的使用
- Weka使用的相关问题
- 使用weka的select attribute
- Weka开发--在你的代码中使用weka
- Weka开发--在你的代码中使用weka
- Weka开发---在你的代码中使用Weka
- 使用Weka进行数据挖掘(Weka教程一)Weka初识之在你的代码中使用Weka
- Weka使用
- weka使用
- weka使用
- Weka使用
- weka使用
- 【人工智能】软件使用--weka数据类型的转换
- Weka 交叉验证相关类的使用
- 数据预处理和weka.filters的使用
- weka的java使用——聚类
- 在weka中使用libsvm的方法
- Ubuntu12.04中weka的使用
- 使用Eclipse进行远程调试
- ios实现动态加载cell高度
- linux 电池驱动
- swift学习(三)array 和 字典
- Epoll详解
- weka的使用
- Android上通过gcc编译普通的C程序
- POJ 3660 Cow Contest.(Floyd,传递闭包).
- winpcap学习笔记--(Handling offline dump files--1)
- Kaggle-Data Science London-1
- HDU 4324 Triangle LOVE (拓扑排序)
- 深入理解java虚拟机学习笔记2-java内存区域
- 在Qt Creator 和在 vs2012 里添加信号和槽
- stringstream的用法