数据挖掘工具及流程(一)

来源:互联网 发布:电脑软件怎么恢复 编辑:程序博客网 时间:2024/06/14 22:16

数据挖掘主要“分类”

监督学习(supervised learning)

  • 回归
  • 决策树
  • 随机森林
  • KNN
  • 逻辑回归
  • 朴素贝叶斯
  • SVM

非监督学习(unsupervised learning)

  • k-means
  • 关联
  • 隐马尔科夫模型
  • PAM

解决问题流程

  • 了解问题背景及最终结果
  • 了解评估原则
  • 数据预处理及可视化(如果可以可视化)
  • 特征工程
  • 模型选择
  • 超参数调整
  • 模型融合

数据预处理及可视化

数据清洗

  • 填充缺失值,缺失值较多则丢弃
  • 保证样本均衡(不能出现目标lable偏差极大)
  • 可视化在低维情况下可是很好的认识数据

需要用到的常用包:pandasmatplotlibseaborn 等。
sklearn_preprocessing

特征工程

单个特征:归一化离散化指数变换
多个特征:PCALDA降维
特征选择:相关系数信息增益特征子集正则化
虚拟变量
sklearn.feature extraction

0 0