数据挖掘笔记(6)——挖掘软件、测试数据
来源:互联网 发布:淘宝店铺需要什么东西 编辑:程序博客网 时间:2024/05/16 11:39
挖掘软件:
软件介绍
数据挖掘:SPSS
数据统计: SPSS(简单易用,常用算法), SAS (入手有点困难,可编程) STATA
SVM(支持向量机)软件
Weka软件:
实验室使用,非商用
参考网站: www。chinakdd.com www.wekacn.org
Explorer: 算法可行性(对数据预处理,建立模型(分类、关联、聚类等))
Experimenter:算法评估(使用多个算法对一组数据进行分析),完成分布式任务处理
Knowledge FLow: 对大型数据处理的递增算法,画一个工作流
Simple CLI: 简单的命令行
转换为rrdf格式
1. 进入explorer
2. 打开csv文件
3. Save 为 rrdf格式
数据预处理
1. 删除无用属性,如id
2. 离散化: 直接修改 rrdf文件
简单操作:
1. 进入explorer 部分
2. 选择数据源 : 安装目录data下有实例数据
3. 预处理: 删除属性,离散化
4. 分类
选择部分数据作为训练集
通过交叉验证防止过度拟合;
correctly classified instances 代表成功率;
confusion matrix对角线上数字是正确预测的
应用模型
将模型应用到剩下的数据中,在set中选择要应用的数据文件
聚类
选择【cluster】
没有训练数据,所以选择 Use Training Set
参考教程:
http://wenku.baidu.com/view/360d99146edb6f1aff001f40.html
数据库 UCI
有很多数据挖掘的实例数据
加州大学尔湾分校 www.uci.edu
下载地址: archive.ics.uci.edu/ml
数据流挖掘
场景: 网络安全, 骚扰短信等, 金融市场,视频流挖掘
特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)
模型: 收银机模型 十字转门模型
算法:VFDT算法; fVFDT UFFT(超快速森林算法)
- 数据挖掘笔记(6)——挖掘软件、测试数据
- 数据挖掘测试数据集大全
- 数据可视化——《数据挖掘》笔记
- 数据挖掘笔记(三)—数据预处理
- python数据挖掘笔记(1)—数据预处理
- 数据挖掘笔记(1)——数据库与数据仓库,挖掘模式
- 数据挖掘笔记(1)——概论、类型
- 数据挖掘笔记(2)——分类、数值预测
- 数据挖掘笔记(4)——关联规则
- 数据挖掘笔记(7)——应用
- 数据挖掘笔记(四)—定义及广义知识
- python数据挖掘笔记(2)—模型建立
- 数据挖掘笔记(一)
- 数据挖掘笔记(二)
- 数据挖掘笔记(一)
- 数据挖掘笔记(二)
- 数据挖掘笔记(1)
- 数据挖掘笔记(一)
- OpenGLl离线渲染
- Unicode与UTF-8互转(C语言实现)
- web容器加载xml
- Excel VBA 获取指定路径下的图片名称(带后缀)/(不带后缀)/跳出选择路径对话框手动选择路径
- python手记(47)
- 数据挖掘笔记(6)——挖掘软件、测试数据
- 用VB备份和恢复SQLServer数据库的方法
- 《Qt编程的艺术》——第九章 QtSql模块
- Python3.x和Python2.x的区别介绍
- Excel VBA 根据图片名称插入对应图片
- freebsd 内核安全
- 机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
- 数据挖掘笔记(7)——应用
- JDK 7 新特性 - 总览