2017.07.13回顾 MIC

来源:互联网 发布:引用另外一个表格数据 编辑:程序博客网 时间:2024/06/05 00:12

1、上午主要是做类主产品的新模型决策规则,解决了9F两个字段缺失用什么替代的问题,三种方法,用缺省值替代,用0替代,用开发集woe加权替代,用缺省值不合理,因为缺省值在开发集上有特殊的缺失含义,用0影响整体输出结果的均值等 ,最后用woe均值替代至少整体评分输出均值影响并不大,如若一个自变量如此替代,对总体通过率的估计影响应该不大

2、上午开了个会,主要是几个新人介绍自己的建模思路,反正保持原则,有一句说一句,不懂就不懂,别人使用的新方法和新技术,我完全有可能不了解,这也说明我自己有很多需要提高的地方,对于别人说的不对的地方,就是要去撕,不要怂,据理力争

3、中午利用休息时间看了下上午开会一个新人提出所谓MIC(最大信息系数),用于度量两个变量间的相关性,我大概看了下,计算方法有了大致了解,计算量偏大,而且最后落脚点是线性模型,即便自变量有一些非线性关系,最后导入到一个线性回归,总感觉有哪里不妥当的地方,有坑吧,以后做回归模型的时候可以深究一下

4、从这次会议,我也感觉到我专注信用模型,知识面似乎窄了点儿,我是不是应该去参加各种种类的大数据竞赛,以开拓自己的视野,掌握更多的方法,我觉得如果有时间应该去做这个事情

5、下午继续工程开发,并且测试,解决了除员工贷以外的所以其他产品的逻辑

6、继续开始rolling variable的开发,主要就是一个类别太多的分类变量合并的问题,讨论过程中也获得一种新思路,就是个时间远近来调节权重