融合主题模型和协同过滤的多样化移动应用推荐

来源:互联网 发布:php技术文档 编辑:程序博客网 时间:2024/05/10 10:50

引用的资料:融合主题模型和协同过滤的多样化移动应用推荐

提出了将用户的主题模型和应用的主题模型与MF 相结合的LDA_MF 模型,以及将应用的标签信息和用户行为数据同时加以考虑的LDA_CF 算法。提出了融合LDA_MF,LDA_CF 以及经典的基于物品的协同过滤模型的混合推荐算法.

结合主题模型和举证分解方法的算法LDA_MF

为了将多种信息融合,增加用户兴趣表示,本文提出了结合主题模型LDA和矩阵分解MF的LDA_MF算法.LDA_MF 将用户的兴趣(利用用户有行为app 的tag 信息进行刻画)也纳入模型中,在推荐过程中,不仅仅是根据用户的下载行为学习用户和app 的隐含特征矢量,还将用户和app 的语义层面也纳入考虑范围,对于行为过少的app 信息起到补充作用.
LDA_MF模型:
LDA_MF模型
这里写图片描述
app 和用户的特征分布是接近于LDA 学习出的主题分布的,但也存在偏差值ε.所以每个用户i 的隐含特征由用户的主题分布特征θui 和偏差值 εui 构成,每个应用j 的隐含特征由主题分布θv j 和偏差值εv j 构成.我们希望通过模型学习得到用户的隐含特征U 以及app 的隐含特征V.
这里写图片描述
公式(3)是需要最小化的目标函数,对于每一个用户i 和app j 的对(i,j),rij 表示用户i 对于app j 的行为,有下载行为则为1,否则为0.λu 和λv 为正则项系数.使用交替最小二乘法求解,最终通过迭代更新每个用户i 隐含特征ui 以及每个应用j 的隐含特征vj.更新的公式如公式(4)和公式(5)所示,公式(4)中,E 是单位矩阵,Ri 是R 矩阵中第i 行向量的转置.公式(5)中,E 是单位矩阵,Rj 是R 矩阵中第j 列向
量.
这里写图片描述
在得到满足最优化的解,得到用户的隐含特征U*以及app 的隐含特征V*后,我们计算用户i 对于app j 的喜好*rij ,选取 Top-50 应用作为混合推荐的候选,在选取的过程中,将用户已安装的应用过滤掉. *rij 的计算公式如下.
这里写图片描述

结合内容和行为信息的LDA_CF算法

使用Linked-LDA 模型,将每个应用的标签和下载该应用的用户集合作为输入,学习出每个应用的主题分布,该题分布可以作为应用的特征表示;然后,对于每一个用户,我们利用该用户一周内下载的应用的主题分布均值表示该用户,该均值分布可以认为用户在主题上的兴趣分布;最后,我们根据app 的特征和用户兴趣给出推荐结果.
这里写图片描述
这里写图片描述
本文采用吉布斯采样(Gibbs sampling)[13]求解Linked-LDA,在采样过程中,我们需要不断调整app 的每个标
签词属于每个主题的概率以及下载app 的每个用户选择每个主题的概率,直到收敛.采样更新规则如下.
这里写图片描述
当吉布斯采样收敛后,我们根据每个app 的标签以及下载app 用户分配到主题的情况推导模型的参数估计θ, (v)k θ表示每个app v 在主题k 下的概率,见公式(9).
这里写图片描述
app主题分布为:这里写图片描述
用户u所下载的应用集合这里写图片描述Nu为u所下载的应用数,则每个用户u 的兴趣特征可以使用用户下载过的应用的特征来表示这里写图片描述
这里写图片描述
归一化处理:这里写图片描述
后计算用户和物品的相似性
这里写图片描述

融合多种算法的混合算法Hybrid_Rec

本文提出的LDA_MF,LDA_CF 以及传统协同过滤方法中的Item-based 协同过滤(item_CF)作为推荐候选集生成算法。
将3 种推荐算法得分加权后便得到最终推荐列表的得分,我们将推荐app 在推荐列表的得分作为app 被推荐的概率.
这里写图片描述
其中,w={w1,w2,w3}为3 种算法融合的权重,使用逻辑回归得到权重值.本文将该问题看做一个分类问题,类别为
用户是否下载了某一个应用.
hw 表示预测函数,则对于m 个样本,最终的损失函数J(w)
这里写图片描述
为了使损失函数最小,采用梯度下降法求解即可得到算法融合的权重.在梯度下降求解后,得到w={w1,w2,w3}以及w0,可以计算每个用户的推荐候选集合中不同app 的最终得分,即hybridsv .根据该值选取Top-10的应用作为用户最终的推荐列表

0 0
原创粉丝点击