[Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale
来源:互联网 发布:雅各布矩阵和海森矩阵 编辑:程序博客网 时间:2024/06/10 16:58
论文链接:GLMix
文章来自于LinkedIn Job Recommendation的团队。文章想说的事情其实很简单,那就是用了一个Generalized Linear Mixed Model,在Job Recommendation的Task上效果还不错。
传统的评分模型,用到Linear Regression Model;
传统的投票模型,用到Logistic Regression Model;
传统的统计模型(类似阿里音乐趋势预测大赛),用到Poisson Regression Model。
User 和 Item 高维度问题,常常用PCA和feature hashing来处理,但是这样的做法有一个问题,就是无法解释原始空间数据。
那么,什么是这个Generalized Linear Mixed Model呢?简单说来,就是作者们认为,对于每一个User,和每一个Job都需要有单独的Coefficients,也就是所谓的Random Effects。当然,还需要有一个全局的Effect。任何一个推荐,都是全局的效果和User-Specific以及Job-Specific的效果的综合考虑。如果一个用户的数据量比较多,那么自然这样的Coefficient就能抓住用户自己的偏好。对于Job,也是同理的。
那么,这么一来,整个模型的参数量就上去了,对于大规模应用来说,传统的Model-Fitting的方法就不适用了。文章提出了基于Spark的Parallel Block-wise Coordinate Descent的办法来学习模型。 用到了cluster的思想来降低I/O cost的负担。
方法见图:
那么试验环节就很有意思了,我觉得也很有借鉴意义。简单说来,在Job Recommendation的数据上,以及两个公开的大数据上,GLMix的方法都比纯粹的Logistic Regression要好,同时也比纯粹的Matrix Factorization要好。而在GLMix之上加了MF,额外的好处并不特别明显。当然,这并不意味着MF没有作用了。因为毕竟GLMix是基于Feature的,如果仅有Interaction Data,MF还是非常强劲的Baseline。
- [Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale
- 4 Generalized linear models
- generalized Linear Models
- TensorFlow学习笔记7----Large-scale Linear Models with TensorFlow
- Generalized Linear Models笔记(一)
- 统计分析:Linear mixed-effects models
- Generalized linear models and linear classification
- Paper Notes: Near linear time algorithm to detect community structures in large-scale networks
- 广义线性模型--Generalized Linear Models
- CS229 Lecture Notes(3): Generalized Linear Models
- 1.1 Generalized Linear Models 广义线性模型
- Generalized Linear Models广义线性模型
- 广义线性模型(Generalized Linear Models)
- 广义线性模型(Generalized Linear Models)
- Supervised learning-1.1 Generalized Linear models
- 通用线性模型(GLMs,Generalized Linear Models)
- [Paper note] MARS: A Video Benchmark for Large-Scale Person Re-identification
- 【Paper Note】Very Deep Convolutional Network For Large-Scale Image Recognition 论文翻译(VGG)
- 10.18 T1
- (C++)二叉树的建立与递归方式遍历
- C# DES加密字符串
- split()函数的用法
- Hibernate 查询match mode的四种模式
- [Paper每周读]KDD2016 GLMix: Generalized Linear Mixed Models For Large-Scale
- rt3070创建ap但是获取不到ip解决方法
- nginx源代码分析一 configure解析
- 第一次使用git连接github执行clone,你应该做些什么?
- 关于Fragment总是预加载的问题解决方法
- HTML/Javascript: 点击按钮页面刷新问题
- cmake安装
- 权势二进制
- BottomDialog 是一个通过 DialogFragment 实现的底部弹窗布局,并且支持弹出动画,支持任意布局http://shaohui.me