【Deep Learning】数据处理

来源:互联网 发布:java判断是否是素数 编辑:程序博客网 时间:2024/05/29 11:32

强文!看懂数据探索,完整指导!

https://mp.weixin.qq.com/s?__biz=MjM5MDI1ODUyMA==&mid=2672938920&idx=1&sn=b7a4af768e70d9480010a032159eaf5a&chksm=bce2eb9f8b9562894231254bc78de8e0388df414987fb4b587a81c3b290a9b0922ae089a9f0f&mpshare=1&scene=23&srcid=0617mLp77mCqEA1DEexrYwtp#rd 

在机器学习中,很多时候你会挣扎于怎么提高模型的准确率。在这种时刻,数据探索的一些方法将帮助你解决这个问题。这个指导将帮助你理解数据探索中的主要技术。请记住你输入的变量的数据质量决定了你模型输出量的质量。所以当你的商业问题提出来以后,你需要花费很多时间在数据准备和探究上面,一般来说,数据清理,探究和准备大概占据了一个项目70%的时间。下面是准备,理解,清理你用于建立预测模型的数据的几个步骤,我会一个一个来介绍

1.变量确定

2.单变量分析

3.双变量分析

4.处理缺失值

5.处理离群值

6.变量转换

7.变量创建

——————————————————————————————————————————————————————————————————————

1.变量确定

首先,你需要确认你的输入变量(预测指标)和你的输出变量(目标变量)是什么,接着,你需要确认数据的种类和分类。

2.单变量分析

在这个步骤,我们需要一个变量一个变量的去做分析,单变量分析的方法取决于你需要分析的变量是连续的还是非连续的。

3.双变量分析

双变量分析是用来找出两个变量之间的关系,我们寻找两个变量间有显著水平的相关联和非相关联性。双变量分析可以是非连续型变量和非连续型变量,非连续型变量和连续型变量还有连续型变量和连续型变量。

4.处理缺失值

a. 删除:表删除(List-wise Deletion)和对删除(Pair-wise)
b. 均值(mean)/众数(mode)/中位数(median)替换法:用估计的值去替换缺失值
c.预测模型:用预测模型来估算缺失值
d. 最近邻居法(KNN):用缺失值周围的离它最近或者是最相似的其他变量来估算

5.处理离群值
绝大多数处理离群值的方法与缺失值比较类似,可以删除或者转换,或者替换
删除观测值: 如果是因为非自然的离群值,而且数量很少的话,我们可以移除它们

6.变量转换
在数据建模中,变量变换是指一个变量用其相关的函数变换之后的值来表示。打个比方,我们用x取对数之后的值来取代x的值。也可以说,变量变换改变了变量的分布。

7.变量创建

利用原有的变量创建新变量的过程。打个比方,我们有日期的输入变量(日-月-年),我们可以利用这个变量建立专门的日,月,年,星期,工作日等等比之前的输入变量日期更好的变量





原创粉丝点击