程序博客网 > 网站搜索算法

sklearn---特征工程

来源：互联网发布：网站搜索算法编辑：程序博客网时间：2024/06/11 08:57

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

特征工程
特征工程：顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用；

数据预处理

不属于同一量纲：即特征的规格不一样。
- 无量纲化
信息冗余：对于某些定量特征，其包含的有效信息为区间划分。
- 二值化
定性特征不能直接使用：只能接受定量特征的输入。
- 哑编码将定性特征转换为定量特征
存在缺失值：缺失值需要补充。
信息利用率低：对定性特征哑编码达到非线性的效果。

特征选择
数据预处理后，要选择有意义的特征输入机器学习的算法和模型训练。

特征是否发散
特征与目标的相关性

特征选择方法：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。
Wrapper：包装法，根据目标函数，每次选择若干特征，或者排除若干特征。
Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。

降维

基于L1惩罚项的模型
主成分分析法（PCA）
线性判别分析（LDA）

PCA是为了让映射后样本具有最大的发散性；而LDA是为了让映射后样本有最好的分类性能。
PCA是一种无监督的降维方法，而LDA是一种有监督的降维方法。

详情点击：

from http://www.cnblogs.com/jasonfreak/p/5448385.html

0 0

网站搜索算法

网站搜索算法

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子询医问药行医问药网问医省医院几点上班寻药问医网寻医问医网有问必答在线问诊寻医问药专家网问药网寻医问药网求医问药有问必答求医问药专家网产科咨询专家免费咨询皮肤科专家在线咨询快速快问 haodf 39问医网妇产科专家在线咨询免费医学生好医大夫在线医院专家医师是什么看内科哪个医院好中大夫在线医师咨询皮肤在线咨询医生在线咨询皮肤医生在线咨询牙科医生儿童在线咨询医生网上怎么咨询医生把逼张开往里捅给医生检查林婉如瑜伽老师老王医生免费 24小时在线咨询医生医界狂少医界圣手医界俗人医界贷登录医界贷下载