特征工程基础

来源:互联网 发布:作业部落 知乎 编辑:程序博客网 时间:2024/05/30 04:04

大纲


  • 可用性评估:获取难度、覆盖率、准确率
  • 特征清洗:清洗异常样本
  • 采样:数据不均衡、样本权重
  • 单个特征:无量纲化(标准化、归一化)、二值化、离散化、缺失值(均值)、 - 哑编码(一个定性特征扩展为N个定量特征)
  • 数据变换:log、指数、Box-Cox
  • 降维:主成分分析PCA、线性判别分析LDA、SVD分解
  • 特征选择:Filter(相关系数、卡方检验)、Wrapper(AUC、设计评价函数A*、Embedded(L1-Lasso、L2-Ridge、决策树、DL)
  • 衍生变量:组合特征
  • 特征监控:监控重要特征,fa特征质量下降
    模型生成流程图
0 0