总结笔记-《天猫推荐算法大赛总结》

来源：互联网发布：网络强国论文参考文献编辑：程序博客网时间：2024/05/26 07:29

【本文是对《天猫推荐算法大赛总结》的笔记，同时加了少部分心得，感谢该文章的作者的贡献】

【参考】：http://closure.blog.ustc.edu.cn/?p=117点击打开链接

1、特征工程

1）特征集三个部分：

第一是用户对品牌的直接特征体系，包括点击购买收藏和购物车，第一次点击购买，最后一次点击购买等；

第二是用户的特征体系，包括用户总购买，总点击，点击转化比等；

第三是品牌的特征体系，包括品牌购买用户，购买次数，点击转化比等等。

2）时间维度：按照时间分片，每个分片里提取相应的特征体系。

基于一种观察，用户对品牌的购买行为和他最近的行为较为相关，所以时间片的划分应该满足最近的时间分片较细，较远的时间片划分粗粒度一些；这样就把时间这一张量的信息粗糙构建到feature中。

3）优化的点：

第一点：（user和item独立特征挖掘，如例子中对品牌的特征深入挖掘）关于品牌或者用户的特征挖掘，简单的统计虽然对整个结果的准确性有一定提升，但是绝对不是最大的提升，一个很简单的例子：A和B两个品牌都被买了1000次，但是A品牌中很多人买了再买，然后再买，但是B品牌大部分买了一次都不再买了，这是个很大的区别，也就是说在对品牌进行特征建模的时候，把用户的因素更加深刻的结合到品牌中挖掘更加本质的特征，有点类似于寻找最优解一样，总有个方向最快通向最优解，但是如何找到这个最优方向，需要我们深层去思考，这可能就是业务吧。

第二点：（对新客或新商品有价值，考虑历史消费相似item）A用户对B1和B2两个品牌都产生过一次操作，并且这两个品牌的特征体系基本相同，那如何判断对哪个品牌买的可能性更大呢？这个基于简单统计的可能就难以去做，但是我们深层的考虑下，通过协同过滤，我们发现A用户曾经买的品牌中很多和B1产生一种联系，但是和B2品牌没啥联系，这样明显的A用户买B1的可能性就更大一些。

所以在做特征工程的时候，除了简单的数学统计外，我们还是要深入思考整个业务场景，挖掘更加本质的特性，才会有更大的提升。

2、模型选择和优化

主要用到：逻辑回归、随机森林、梯度增强回归树。

优化点，特征处理

1）逻辑回归，利用log变换，使特征具有线性可比性

逻辑回归要求特征具有线性可比较，一个简单的例子，一个用户对一个品牌点击了10次和100次，是不是点击100次的那个品牌一定比点击10的那个品牌要买的可能性大10倍，我想肯定不是，可能买的可能性就大那么一点点而已；所以我们要对特征进行一些变换，让其具有线性可比较性，我们采取的措施是进行log变换，效果比原始数据要好很多。

2）随机森林，利用等距等频分箱离特征离散化

随机森林，虽然它可以适应与连续和离散的特征，且不需要特征具有线性化特征，但是连续特征给模型的训练带来很大的开销，且易出现过拟合，如果对特征进行离散化，效果更好，常见的就是等距和等频分箱，进行离散化处理。

3）逻辑回归正则化调整

4）随机森林和GBRT的参数调优

3、模型融合

gbrt和随机森林本身就是两个融合模型，一个是基于boosting的集成学习，一个是基于bagging的集成学习。

1）第一是模型内部的融合；

第一是多次采样，进行结果融合；

第二是不同特征子空间进行训练，结果进行融合；

第三是简单模型级联融合，以线性回归为例，构建级联的线性model，每个新的线性model是以前一个线性model的误差为目标，做到误差的级联消除。

2）关于模型之间的融合，利用加权方式融合目标：寻找最优的模型权重系数方法：优化算法，如最小二乘等

4、其他

1）特征组合，形成一定富特征。方法：自动化组合学习、人工组合。

2）四维张量到二维特征矩阵的提取，是不是有更加自动的方法去做自动特征提取

第一个是张量分解，把高维转化为几个低维的乘积；

第二个是深度学习，无监督自学习特征。

3）gbrt，最小二乘的回归模型，转化为分类模型。比如mlr（多分类逻辑回归）实际上就是一种gradient boosting的分类模型。

阅读全文

0 0