【笔记】AI100-Kaggle竞赛_2017年房价预测

来源:互联网 发布:公司屏蔽了淘宝怎么办 编辑:程序博客网 时间:2024/05/20 14:22
案例来源:https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247483916&idx=1&sn=a83de5391530049632ba2a0ef4d6a60b @AI100
(以下为阅读笔记,目的是便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)

1. 数据:kaggle比赛提供的描述洛瓦(Lowa)住房方方面面的特征总共有79个

2. 目标:预测亚美尼亚州洛瓦市(Ames,Lowa)的房价

3. 探索性数据分析
  1. 绘制各个特征的直方图,了解哪些可能是异常值。
  2. 基于直方图,初步了解哪些特征有效
  3. 由于是回归问题,多重共线性会影响预测效果。计算特征间的相关系数,找出具有较高相关性的特征

4. 特征工程
  1. 房屋到街道的直线距离。将房屋分组(分组依据?),组内使用中位数来填充NA
  2. 对于连续特征,为了使其满足线性回归所需要的线性特征、恒等方差以及正态性等,使用log(x+1)进行特征转化
  3. 对于一部分特征,采用“差、中等、好”来简化
5. 模型融合
  1. sensemble:训练xgb、lasso、ridge模型,等权重平均
  2. stacking:以xgb、lasso、random forest、gbm模型的输出作为新特征,以xgb作为分类器训练