特征处理(一)

来源:互联网 发布:vmware 设置网络 编辑:程序博客网 时间:2024/05/29 07:05


这里还是关于降低维度的。先自己叨叨一些,之前总是看了很多书啊算法啊,思想啊,真正建模就傻了。遇到好多困难:1特征工程 2算法代码实现 3调优。 光知道算法然并卵啊~~,对于偶这种新手,第一步特征工程就死翘翘了,于是找特征工程的各种blog,还是讲算法的多啊,具体算法的应用场景呢?代码呢? R和py的各种包,知道名字,但是还得知道详细的参数调用啊,得知道包的算法依据是神马,才敢用到自己的数据。无奈学习实践时间有限,只能慢慢一点点积累。

一个完整的数据预处理过程包括:
一数据清洗
二数据集成(偶想说的是这里的降低维度的一个方法)
三数据规约
四数据变换

一:数据清洗 包括 1缺失值处理 2噪声处理 
二:数据集成 是指合并数据,这里偶主要想强调会产生冗余(其实就是相关性强的变量),因此可以通过卡方检验对两个类别型变量进行相关性检验,用相关系数对两个连续型数据进行相关性检验。
三:数据规约 包括小波变化啦、主成分分析啦、属性子集选择(逐步向前、逐步向后删除等)好多降低维度的,以后慢慢丰富这部分内容啊,待仔细研究
四:数据变换与离散化 包括归一化之类的,这里先给个归一化链接

讲得浅显易懂的一篇文章,原文链接点击打开链接

1、线性函数归一化(Min-Max scaling)

2、0均值标准化(Z-score standardization)









0 0
原创粉丝点击