数据挖掘的一般过程

来源:互联网 发布:彩票算法 编程 编辑:程序博客网 时间:2024/04/25 20:54

数据挖掘的一般过程

本文主要参考了一篇文章(最后附),那篇文章不太全面,因此加入了自己一点理解。由于实践经验太少,水平有限,希望大神指正。
图的作者jasonfreak

1. 数据集选取或构造

根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。

2. 数据预处理

确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和一致性,包括数据清理、数据集成、数据规约和数据变换方法。
image

(1)数据清理

忽略元祖、人工填写缺失值、使用属性的中心度量填充、给定同一类所有样本的属性均值或中位数填充、最可能的值填充

(2)数据集成

实体识别、冗余和相关分析(卡方检验,相关系数,协方差等,用spss比较方便)

(3)数据归约

维规约(小波变换和主成分分析,最常用)、数量规约(较小的数据替代原始数据)、数据压缩(有损无损两种,尤其对于图像视频等多媒体常用)

(4)数据变换和数据离散化

数据变换:光滑,属性构造,聚集,规范化,离散化和概念分层。
image
image

3. 数据转换

将上面处理后的数据转换为特征,这些特征要尽可能的准确的描述数据,并且使得机器学习算法达到最优。
详见特征工程

4. 数据建模

根据机器学习模型优缺点,选择适宜本任务的最佳模型。其中一种方式是对每个模型都进行训练,再统计测试数据的误差,选择误差最小的模型即可。

另外,还需要调整模型的参数,使得模型表现尽可能最优。主要方法有手动调优、网格搜索、随机搜索以及基于贝叶斯的参数调优方法。详见机器学习调参-模型选择

5. 结果分析和改进

分析的对象主要是模型的优缺点(或者叫模型的评估),客观公正的评判自己的作品(能有高手帮忙最好啦)能清醒自己的认知。改进就是从分析当中来。

参考:数据挖掘一般过程

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 朋友诈骗罪被关看守所了该怎么办 打架被拘留家里有孩子没人看怎么办 刑事拘留满37天给逮捕了怎么办 因打架被拘留十五天释放后会怎么办 犯罪人在拘留所生了小孩怎么办 我申请了进京证更换车辆怎么办 丈夫去世前想把财产留给妻子怎么办 假货中通代收货款发现是假货怎么办 注册志愿者时身份证被使用该怎么办 双眼皮贴贴的皮肤送了怎么办? 满60岁社保末满十五年怎么办 眼角膜少了一块怎么办应该吃什么 左右胸相差一个罩杯左右怎么办 穿一字肩的裙子没有无肩内衣怎么办 农业网柑橘被奄24小时怎么办 钱包被偷了小偷抓到了钱不认怎么办 快高考了很想学却没有动力怎么办? 孩子高三了学习状态不好怎么办 离婚时对方说把钱都花了怎么办 挂科太多学校不给毕业证怎么办 大专挂科太多学校让延期毕业怎么办 安卓手机老是收到垃圾短信怎么办 高铁站行李拉安检仪上应该怎么办 连壁金融立案了投资钱怎么办 联壁金融倒了投资人的钱怎么办 改签的高铁票错过了怎么办 高铁票错过了当天没别的车次怎么办 电脑文件剪切到u盘不见了怎么办 电脑剪切到u盘然后打不开了怎么办 淘宝未满十八岁限制购买物品怎么办 网上飞机订票手机号填写错了怎么办 室外回填土都是砂土压不实怎么办 王牌车新车储气筒漏气查不到怎么办 顺丰快递保价后商品出现问题怎么办 未保价快递丢失没有价值证明怎么办 安卓手机谷歌地图怎么用不了怎么办 ae模板版本太高打不开怎么办 苹果手机高德地图信号弱怎么办 网上订好火车票后没赶上火车怎么办 丰巢快递柜没收到短信怎么办 被不同号码骚扰电话打个不停怎么办