融合主题模型和协同过滤的多样化移动应用推荐

来源：互联网发布：php技术文档编辑：程序博客网时间：2024/05/10 10:50

引用的资料：融合主题模型和协同过滤的多样化移动应用推荐

提出了将用户的主题模型和应用的主题模型与MF 相结合的LDA_MF 模型,以及将应用的标签信息和用户行为数据同时加以考虑的LDA_CF 算法。提出了融合LDA_MF,LDA_CF 以及经典的基于物品的协同过滤模型的混合推荐算法.

结合主题模型和举证分解方法的算法LDA_MF

为了将多种信息融合,增加用户兴趣表示,本文提出了结合主题模型LDA和矩阵分解MF的LDA_MF算法.LDA_MF 将用户的兴趣(利用用户有行为app 的tag 信息进行刻画)也纳入模型中,在推荐过程中,不仅仅是根据用户的下载行为学习用户和app 的隐含特征矢量,还将用户和app 的语义层面也纳入考虑范围,对于行为过少的app 信息起到补充作用.
LDA_MF模型：

这里写图片描述
app 和用户的特征分布是接近于LDA 学习出的主题分布的,但也存在偏差值ε.所以每个用户i 的隐含特征由用户的主题分布特征θui 和偏差值 εui 构成,每个应用j 的隐含特征由主题分布θv j 和偏差值εv j 构成.我们希望通过模型学习得到用户的隐含特征U 以及app 的隐含特征V.
这里写图片描述
公式(3)是需要最小化的目标函数,对于每一个用户i 和app j 的对(i,j),rij 表示用户i 对于app j 的行为,有下载行为则为1,否则为0.λu 和λv 为正则项系数.使用交替最小二乘法求解,最终通过迭代更新每个用户i 隐含特征ui 以及每个应用j 的隐含特征vj.更新的公式如公式(4)和公式(5)所示，公式(4)中,E 是单位矩阵,Ri 是R 矩阵中第i 行向量的转置.公式(5)中,E 是单位矩阵,Rj 是R 矩阵中第j 列向
量.
这里写图片描述
在得到满足最优化的解,得到用户的隐含特征U*以及app 的隐含特征V*后,我们计算用户i 对于app j 的喜好*rij ,选取 Top-50 应用作为混合推荐的候选,在选取的过程中,将用户已安装的应用过滤掉. *rij 的计算公式如下.

结合内容和行为信息的LDA_CF算法

使用Linked-LDA 模型,将每个应用的标签和下载该应用的用户集合作为输入,学习出每个应用的主题分布,该题分布可以作为应用的特征表示;然后,对于每一个用户,我们利用该用户一周内下载的应用的主题分布均值表示该用户,该均值分布可以认为用户在主题上的兴趣分布;最后,我们根据app 的特征和用户兴趣给出推荐结果.
这里写图片描述

本文采用吉布斯采样(Gibbs sampling)[13]求解Linked-LDA,在采样过程中,我们需要不断调整app 的每个标
签词属于每个主题的概率以及下载app 的每个用户选择每个主题的概率,直到收敛.采样更新规则如下.

当吉布斯采样收敛后,我们根据每个app 的标签以及下载app 用户分配到主题的情况推导模型的参数估计θ, (v)k θ表示每个app v 在主题k 下的概率,见公式(9).
这里写图片描述
app主题分布为：
用户u所下载的应用集合Nu为u所下载的应用数,则每个用户u 的兴趣特征可以使用用户下载过的应用的特征来表示

归一化处理：
后计算用户和物品的相似性

融合多种算法的混合算法Hybrid_Rec

本文提出的LDA_MF,LDA_CF 以及传统协同过滤方法中的Item-based 协同过滤(item_CF)作为推荐候选集生成算法。
将3 种推荐算法得分加权后便得到最终推荐列表的得分,我们将推荐app 在推荐列表的得分作为app 被推荐的概率.
这里写图片描述
其中,w={w1,w2,w3}为3 种算法融合的权重,使用逻辑回归得到权重值.本文将该问题看做一个分类问题,类别为
用户是否下载了某一个应用.
hw 表示预测函数,则对于m 个样本,最终的损失函数J(w)

为了使损失函数最小,采用梯度下降法求解即可得到算法融合的权重.在梯度下降求解后,得到w={w1,w2,w3}以及w0,可以计算每个用户的推荐候选集合中不同app 的最终得分,即hybridsv .根据该值选取Top-10的应用作为用户最终的推荐列表

0 0