Datacastle 微额贷款人品预测大赛总结
来源:互联网 发布:易语言仿qq源码 编辑:程序博客网 时间:2024/04/28 16:22
感谢datacastle和现金巴士提供了这样好的大数据竞赛平台!
主要从以下几个方面总结:
(0)数据预处理:
缺失值:删除缺失值大于194的样例
根据缺失值个数分段构造离散特征
数值型变量:log变换
(1)特征工程
(1)排序特征:将数值型数据排序,将其rank作为新的特征
(2)连续特征离散化:等量,或者等间距
(3)计数特征:每个样本离散特征1-10的数量,生成10个新特征
(4)类别特征:one-hot-encoding
(2)特征选择
(1)MIC
(2)皮尔逊相关系数
(3)xgboost,RandomForest等对特征排序
(4)正则化方法L1,L2
(3)半监督学习
对于n个无标签的样本可以有2^n种打标签方式。每一种打标签的方式均生成一次。将其加入训练集,选择性能最好的一种打标签方式。
(4)模型融合
选择多样性的模型:通过两个模型预测score的MIC评价两两模型的相似度,差异大的模型融合。
通过参数的多样化,模型的多样化,特征的多样化产生多样性模型。
(5)正负比例不均衡:
用效果最好的xgboost模型预测无标记样本,取分数最低5000个作为负例加入训练集。
过采样:TSMOTE:
SMOTE算法是一种处理正负样本不平衡的算法。对于少类样本,通过过采样产生新的样例。其步骤如下:(1)选择少类样本的k个最近邻(2)对于其中的少类样例执行如下操作:onew=o+random(0,1)*d(onn,o)由此得到新的样例。
0 0
- Datacastle 微额贷款人品预测大赛总结
- Datacastle人品预测大赛比赛总结
- DataCastle微额借款用户人品预测大赛冠军思路
- DataCastle[用户人品预测竞赛]——获奖团队分享
- DataCastle平台--微博预测算法(第三名分享)
- DataCastle“卧龙大数据 微博热度预测竞赛”,用微博数据实时预测微博传播
- 用户贷款风险预测-datacastle竞赛题目
- 阿里 微博预测大赛 记录
- AI大赛-电力预测
- Loan default predictor(贷款违约预测)
- 阿里音乐流行趋势预测大赛一起做-(7)初赛总结之用户分类
- 阿里音乐流行趋势预测大赛一起做-(7)初赛总结之用户分类
- DataCastle[职位预测竞赛]冠军——我们都爱苍老师
- 实战人品预测之一_国内大数据竞赛平台
- 实战人品预测之二_热门模型xgboost
- 实战人品预测之三_向高手学习
- 人品?
- 大赛总结
- 获取磁盘列表以及磁盘信息的一些WIN32 API
- hihoCoder#1032_最长回文子串
- iOS界面篇 - bounds和frame的相同和区别
- 指针与函数
- xchg汇编指令说明
- Datacastle 微额贷款人品预测大赛总结
- android:descendantFocusability用法简析
- Ubuntu搭建FTP(vsftpd)文件服务器
- 欢迎使用CSDN-markdown编辑器
- js 恶心的遍历
- 监听端口的非阻塞性不具有继承性
- pycharm5.0专业版出现的乱码问题
- Android NDK中打印信息能在eclipse中看到
- Ubuntu hadoop 伪分布式环境搭建步骤+ssh密钥(免密码登录)配置