[Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale

来源：互联网发布：雅各布矩阵和海森矩阵编辑：程序博客网时间：2024/06/10 16:58

论文链接：GLMix
文章来自于LinkedIn Job Recommendation的团队。文章想说的事情其实很简单，那就是用了一个Generalized Linear Mixed Model，在Job Recommendation的Task上效果还不错。

传统的评分模型，用到Linear Regression Model；
传统的投票模型，用到Logistic Regression Model；
传统的统计模型（类似阿里音乐趋势预测大赛），用到Poisson Regression Model。
User 和 Item 高维度问题，常常用PCA和feature hashing来处理，但是这样的做法有一个问题，就是无法解释原始空间数据。

那么，什么是这个Generalized Linear Mixed Model呢？简单说来，就是作者们认为，对于每一个User，和每一个Job都需要有单独的Coefficients，也就是所谓的Random Effects。当然，还需要有一个全局的Effect。任何一个推荐，都是全局的效果和User-Specific以及Job-Specific的效果的综合考虑。如果一个用户的数据量比较多，那么自然这样的Coefficient就能抓住用户自己的偏好。对于Job，也是同理的。

那么，这么一来，整个模型的参数量就上去了，对于大规模应用来说，传统的Model-Fitting的方法就不适用了。文章提出了基于Spark的Parallel Block-wise Coordinate Descent的办法来学习模型。用到了cluster的思想来降低I/O cost的负担。
方法见图：
这里写图片描述

那么试验环节就很有意思了，我觉得也很有借鉴意义。简单说来，在Job Recommendation的数据上，以及两个公开的大数据上，GLMix的方法都比纯粹的Logistic Regression要好，同时也比纯粹的Matrix Factorization要好。而在GLMix之上加了MF，额外的好处并不特别明显。当然，这并不意味着MF没有作用了。因为毕竟GLMix是基于Feature的，如果仅有Interaction Data，MF还是非常强劲的Baseline。

0 0