数据挖掘笔记(6)——挖掘软件、测试数据

来源:互联网 发布:淘宝店铺需要什么东西 编辑:程序博客网 时间:2024/05/16 11:39

挖掘软件:

软件介绍

      数据挖掘:SPSS   

      数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程)    STATA

    SVM(支持向量机)软件

Weka软件:

实验室使用,非商用

       参考网站:  www。chinakdd.com   www.wekacn.org

           Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))

           Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理

         Knowledge FLow: 对大型数据处理的递增算法,画一个工作流

         Simple CLI: 简单的命令行

转换为rrdf格式

1.     进入explorer

2.     打开csv文件

3.     Save 为 rrdf格式

数据预处理

1.      删除无用属性,如id

2.      离散化:  直接修改 rrdf文件

简单操作:

1. 进入explorer 部分

2. 选择数据源 : 安装目录data下有实例数据

3. 预处理: 删除属性,离散化

4.     分类

选择部分数据作为训练集

        通过交叉验证防止过度拟合;

        correctly classified instances 代表成功率;

        confusion matrix对角线上数字是正确预测的

应用模型

将模型应用到剩下的数据中,在set中选择要应用的数据文件

聚类

选择【cluster】

没有训练数据,所以选择 Use Training Set

参考教程:

http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html

数据库 UCI             

      有很多数据挖掘的实例数据

      加州大学尔湾分校   www.uci.edu

        下载地址: archive.ics.uci.edu/ml

数据流挖掘

    场景: 网络安全, 骚扰短信等,  金融市场,视频流挖掘

    特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)

    模型: 收银机模型  十字转门模型

       算法:VFDT算法; fVFDT   UFFT(超快速森林算法)

原创粉丝点击