[Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale

来源:互联网 发布:雅各布矩阵和海森矩阵 编辑:程序博客网 时间:2024/06/10 16:58

论文链接:GLMix
文章来自于LinkedIn Job Recommendation的团队。文章想说的事情其实很简单,那就是用了一个Generalized Linear Mixed Model,在Job Recommendation的Task上效果还不错。

传统的评分模型,用到Linear Regression Model;
传统的投票模型,用到Logistic Regression Model;
传统的统计模型(类似阿里音乐趋势预测大赛),用到Poisson Regression Model。
User 和 Item 高维度问题,常常用PCA和feature hashing来处理,但是这样的做法有一个问题,就是无法解释原始空间数据。

那么,什么是这个Generalized Linear Mixed Model呢?简单说来,就是作者们认为,对于每一个User,和每一个Job都需要有单独的Coefficients,也就是所谓的Random Effects。当然,还需要有一个全局的Effect。任何一个推荐,都是全局的效果和User-Specific以及Job-Specific的效果的综合考虑。如果一个用户的数据量比较多,那么自然这样的Coefficient就能抓住用户自己的偏好。对于Job,也是同理的。

那么,这么一来,整个模型的参数量就上去了,对于大规模应用来说,传统的Model-Fitting的方法就不适用了。文章提出了基于Spark的Parallel Block-wise Coordinate Descent的办法来学习模型。 用到了cluster的思想来降低I/O cost的负担。
方法见图:
这里写图片描述

那么试验环节就很有意思了,我觉得也很有借鉴意义。简单说来,在Job Recommendation的数据上,以及两个公开的大数据上,GLMix的方法都比纯粹的Logistic Regression要好,同时也比纯粹的Matrix Factorization要好。而在GLMix之上加了MF,额外的好处并不特别明显。当然,这并不意味着MF没有作用了。因为毕竟GLMix是基于Feature的,如果仅有Interaction Data,MF还是非常强劲的Baseline。

0 0
原创粉丝点击