2017.02.20回顾 gbdt+lr

来源:互联网 发布:开源php cms 编辑:程序博客网 时间:2024/05/29 19:36

1、重跑了镇江的部分客户,看了下通过率,信用模型就是信用模型,很难防住欺诈

2、修改了个小BUG

3、下午研究了gbdt+lr的模型,读了facebook的论文3.1的章节,这个章节是论文的核心部分,讲了是怎样通过GBDT把实值特征变量转换成bool特征变量,每一个叶节点就是一条rule,也就是一个特征,然后怎么去选取这些高阶特征论文没有细说了,而是给出了gbdt+lr的对于NE的提升,相对GBDT提升3.4%感觉也不大啊,而且论文在阐述的时候,我没太懂其中的说法,说的是普通的特征工程可以shave off a couple of tens of a percent of NE,这是对于好几十的NE,那岂不是说gbdt+lr提升不大?虽然论文没细说,但是现在都有了这么多特征,完全可以应用以前的特征选择方法,对于bool特征,非常方便就能计算出woe和iv,按照iv就可以筛出大于0.1的所有高阶特征变量。其实怎样选择这些高阶变量,具体的参考,我查找了很久,并没找到,某一年kaggle冠军用的方法是gbdt+ffm,我初步看了下他们的ppt,还是有些地方不太明白!刚才讨论了下,又获得了更进一步的认识,初步得出的结论是:

我前面说的变量筛选方法是不正确的,因为这是经过转换过,这里iv高,并不等于原始数据集中的iv高,而且假设一种情况,如果两个rule一样,然而值不一样,怎么解释?(不可能值不一样啊,)

我发现讨论被带进沟子里去了,rule一样肯定iv一样,也可以还原到原始数据集的iv啊,好的变量就被筛选出来了,也可以和原始单变量一起建模,也就是回到我最开始的疑惑,多重共线性的问题,如果直接去训练线性模型的话!(其实我觉得我应该去深入学习下线性模型,剑练了更应该练练气了,多重共线性的影响?)

文章的另外一点没看懂的地方讨论了下,就是评价指标的地方,可能他说的是再次相对?

下午临近下班的时候一直找资料,关于gbdt+lr的资料,包括下班后也看了一些咨询,了解到特征工程的几种方式:专家方法、gbdt、deep learning

4、晚上回去浪费了些时间,后头去打羽毛球,装备还该换起来,运动量感觉不够,没起到锻炼效果!今天直接健身房!最后回来居然看了个电影到两点!不要再看电视了!太可怕了!12点前必须睡觉!总的来说,继续坚持,执行力!

0 0