【Deep Learning】数据处理

来源：互联网发布：java判断是否是素数编辑：程序博客网时间：2024/05/29 11:32

强文！看懂数据探索，完整指导！

https://mp.weixin.qq.com/s?__biz=MjM5MDI1ODUyMA==&mid=2672938920&idx=1&sn=b7a4af768e70d9480010a032159eaf5a&chksm=bce2eb9f8b9562894231254bc78de8e0388df414987fb4b587a81c3b290a9b0922ae089a9f0f&mpshare=1&scene=23&srcid=0617mLp77mCqEA1DEexrYwtp#rd

在机器学习中，很多时候你会挣扎于怎么提高模型的准确率。在这种时刻，数据探索的一些方法将帮助你解决这个问题。这个指导将帮助你理解数据探索中的主要技术。请记住你输入的变量的数据质量决定了你模型输出量的质量。所以当你的商业问题提出来以后,你需要花费很多时间在数据准备和探究上面，一般来说，数据清理，探究和准备大概占据了一个项目70%的时间。下面是准备，理解，清理你用于建立预测模型的数据的几个步骤,我会一个一个来介绍

1.变量确定

2.单变量分析

3.双变量分析

4.处理缺失值

5.处理离群值

6.变量转换

7.变量创建

——————————————————————————————————————————————————————————————————————

1.变量确定

首先，你需要确认你的输入变量（预测指标）和你的输出变量（目标变量）是什么，接着，你需要确认数据的种类和分类。

2.单变量分析

在这个步骤，我们需要一个变量一个变量的去做分析，单变量分析的方法取决于你需要分析的变量是连续的还是非连续的。

3.双变量分析

双变量分析是用来找出两个变量之间的关系，我们寻找两个变量间有显著水平的相关联和非相关联性。双变量分析可以是非连续型变量和非连续型变量，非连续型变量和连续型变量还有连续型变量和连续型变量。

4.处理缺失值

a. 删除：表删除（List-wise Deletion）和对删除(Pair-wise)
b. 均值（mean）/众数(mode)/中位数(median)替换法：用估计的值去替换缺失值
c.预测模型：用预测模型来估算缺失值
d. 最近邻居法（KNN）：用缺失值周围的离它最近或者是最相似的其他变量来估算

5.处理离群值
绝大多数处理离群值的方法与缺失值比较类似，可以删除或者转换，或者替换
删除观测值：如果是因为非自然的离群值，而且数量很少的话，我们可以移除它们

6.变量转换
在数据建模中，变量变换是指一个变量用其相关的函数变换之后的值来表示。打个比方，我们用x取对数之后的值来取代x的值。也可以说，变量变换改变了变量的分布。

7.变量创建

利用原有的变量创建新变量的过程。打个比方，我们有日期的输入变量（日-月-年），我们可以利用这个变量建立专门的日，月，年，星期，工作日等等比之前的输入变量日期更好的变量

阅读全文

0 0