2017.02.20回顾 gbdt+lr

来源：互联网发布：开源php cms 编辑：程序博客网时间：2024/05/29 19:36

1、重跑了镇江的部分客户，看了下通过率，信用模型就是信用模型，很难防住欺诈

2、修改了个小BUG

3、下午研究了gbdt+lr的模型，读了facebook的论文3.1的章节，这个章节是论文的核心部分，讲了是怎样通过GBDT把实值特征变量转换成bool特征变量，每一个叶节点就是一条rule，也就是一个特征，然后怎么去选取这些高阶特征论文没有细说了，而是给出了gbdt+lr的对于NE的提升，相对GBDT提升3.4%感觉也不大啊，而且论文在阐述的时候，我没太懂其中的说法，说的是普通的特征工程可以shave off a couple of tens of a percent of NE，这是对于好几十的NE，那岂不是说gbdt+lr提升不大？虽然论文没细说，但是现在都有了这么多特征，完全可以应用以前的特征选择方法，对于bool特征，非常方便就能计算出woe和iv，按照iv就可以筛出大于0.1的所有高阶特征变量。其实怎样选择这些高阶变量，具体的参考，我查找了很久，并没找到，某一年kaggle冠军用的方法是gbdt+ffm，我初步看了下他们的ppt，还是有些地方不太明白！刚才讨论了下，又获得了更进一步的认识，初步得出的结论是：

我前面说的变量筛选方法是不正确的，因为这是经过转换过，这里iv高，并不等于原始数据集中的iv高，而且假设一种情况，如果两个rule一样，然而值不一样，怎么解释？（不可能值不一样啊，）

我发现讨论被带进沟子里去了，rule一样肯定iv一样，也可以还原到原始数据集的iv啊，好的变量就被筛选出来了，也可以和原始单变量一起建模，也就是回到我最开始的疑惑，多重共线性的问题，如果直接去训练线性模型的话！（其实我觉得我应该去深入学习下线性模型，剑练了更应该练练气了，多重共线性的影响？）

文章的另外一点没看懂的地方讨论了下，就是评价指标的地方，可能他说的是再次相对？

下午临近下班的时候一直找资料，关于gbdt+lr的资料，包括下班后也看了一些咨询，了解到特征工程的几种方式：专家方法、gbdt、deep learning

4、晚上回去浪费了些时间，后头去打羽毛球，装备还该换起来，运动量感觉不够，没起到锻炼效果！今天直接健身房！最后回来居然看了个电影到两点！不要再看电视了！太可怕了！12点前必须睡觉！总的来说，继续坚持，执行力！

0 0