元数据嵌入对于用户和项目冷启动推荐系统

来源：互联网发布：极坐标知乎编辑：程序博客网时间：2024/05/18 00:24

摘要：本文呈现一个混合矩阵分解模型表达用户和item使用它们当前特征的隐藏因子的线性结合。模型优于协同过滤和基于内容的模型在冷启动或者稀疏交互数据场景（使用用户和item元数据），和纯推荐系统其中交互数据是充足的表现相当。额外，由模型编码的语义信息得到的特征嵌入是一种词嵌入方法，使得他们对于大量相关任务都有效，例如标签推荐系统。
1 简介
建立推荐系统在冷启动场景中（少量数据可用在新的用户和item）仍然具有挑战。标准矩阵分解模型在一下设定中表现很差：很难有效估计用户和item隐藏向量当协同交互数据稀疏。
基于内容方法解决了这个问题通过表达item通过他们的元数据。推荐系统可以计算对于新的item对于那些没有收集的协同数据。不幸的是，没有在基于内容方法中使用到迁移学习：模型对于每个用户都是单独的估计并且不会得益于其他用户。所以，基于内容的模型比矩阵分解模型表现差，其中协同信息是可用的并且要求大量数据在每个用户上，对于用户冷启动上不适用。
解决这些问题是很重要的，我们维护一个很大的产品类别：超过8百万items，每天增加1万新的产品。
三个因子影响推荐系统。首先我们系统包含大量item。这使得我们数据非常稀疏。第二处理时装，经常大多数相关想来自新释放的集合，只有少量窗口来收集数据并提供有效推荐。最后大量用户是第一次访问，我们为他们呈现引人注目的推荐项只有少量数据。使用user和item的冷启动结合使得纯协同和基于内容的方法对于我们来说不合适。
为了解决这个问题，使用混合的内容-协同方法称为LightFM因为他的类似factorisation machines。在LightFM，像一个协同过滤模型，用户和items使用隐藏向量表达（嵌入）。然而在基于内容模型中，这些完全由内容特征的嵌入的函数定义，其描述了每个产品或者用户。例如若电影”Wizard of Oz”由下列特征描述”muscial fantasy”, “Judy Garland”，那么它的隐藏表达将由这些特征的隐藏表达之和表达。LightFM集合了基于内容和协同推荐的优点。在本文中，形式化表达模型并呈现在两个数据集上的经验结果，显示：1在冷启动和低密度场景中,LIGHTFM和纯基于内容模型表现类似，在（1）在训练集协同信息可用或者（2）用户特征包含到模型中，任意一个条件时效果要好。
2当协同数据是充足的（热启动，密集的user-item矩阵），LightFM和MF模型表现一样好。
3LightFM产出的嵌入编码了重要的语义信息关于特征，并能被使用做相关的推荐任务例如标签推荐。
2LIGHTFM
2.1动机
LIGHTFM的结构包括两部分考虑：1模型应该能够学习user和item的表达从交易数据中：当item被一起描述为”ball gown”和”pencil skirt”对所有喜欢的用户，模型必须学习ball gown类似于pencil skirt
2 模型必须能够对于新Item和user计算推荐项。
完成第一个要求通过使用隐藏表达方法。若ball gowns和pencil skirt同时被相同用户喜欢，他们的嵌入应该距离很近，若ball和biker 从没被相同用户喜欢，他们的嵌入应该很远。这种表达允许使用迁移学习。当对于ball gowns和pencil skirt的表达很相似时，我们有自信推荐ball gown给一个新用户，他目前只对pencil skirt感兴趣。
纯基于内容模型使用降维方式（隐语义索引LSI）可以实现，只编码由特征共同出现而不是用户行为的信息。例如假设所有用户都看到item描述为飞行员，也看到item描述为旅人但两个特征从未描述同一个Item.在这个例子中，LSI向量对于旅人将不会相似于飞行员及时协同信息建议相似。
完成第二个要求通过表达Item和user作为他们内容特征的线性集合。因为内容特征在用户或者item一进入系统时就已知了。最后的结构也很简单理解。对于denim jacket的表达简单的是由denim 和jacket表达之和。US的女性用户的表达是US的表达和女性表达之和。
2.2 模型
U表示用户集合，I表示item集合，FU表示用户特征，FI表示item特征。每个用户和一系列item交互，要么以一种赞美的方式（正交易），要么以不喜欢的方式（负交易）。所有用户-item交易对（u，i）是包括正S+和负S−交易。
用户和Item由其特征来描述。每个用户u由一系列特征fu⊂FU描述。同样的对每个item i其特征由fi⊂FI给定。特征是提前已知，为代表用户和item的元数据。
模型就d为用户和item特征嵌入eUf 和eIf对于每个特征f每个特征也由一个标量偏置项描述（对于用户bUf和对于item特征bIf）.用户u的隐藏表达由其特征的隐藏向量之和给定：

q u = \sum j \in f u e u j

,同样对于item i来说：

p i = \sum j \in f i e I j

对于用户u的偏置项由特征偏置之和给出：

b u = \sum j \in f u b U j

同样对于item i：

b i = \sum j \in f i b I j

模型的预测对于用户u和项目i由用户和项目表达的点乘给出，并使用偏置项调整：

r u i^= f (q u \to \cdot p i \to + b u + b i)

有许多函数对于f函数比较合适。一个identity function 可能会对预测rating比较有用，在本文对二元数据感兴趣，选择sigmoid函数：

f(x)=11+exp(−X).模型的优化目标包含最大数据似然，基于参数条件。似然函数：

L (e U, e I, b U, b I) = \prod (u, i) \in S + r u i^\times \prod (u, i) \in S - (1 - r u i^)

使用异步梯度下降训练模型。
2.3 和其他模型的关系
LightFM和协同MF的关系由用户和item特征集的结构决定的。当特征集只包含指示器变量对于用户和item， lightFM变成了标准MF模型。当特征集也包含元数据特征由多个item 或User共享出来的，LightFM拓展了MF模型通过让特征隐藏因子表示用户交易的结构的部分。
1 大多数应用没有很多元数据特征，只有用户或者Item，或者因为使用一个固定的类型结构来维持当使用生问题特征。这意味着更少参数需要被估计从限制的训练数据，减少过拟合风险并提高泛化能力。
2 隐藏向量对于指示变量不能对于新的，冷启动用户或者items做出估计。表达这些作为元数据特征的结合，其可以从训练集中估计使得可能对冷启动的预测。
3 当只有指示器特征呈现时，lightFM应该比标准MF模型表现好。
当只有元数据和没有指示变量呈现时，一般模型不能缩减到一个纯的基于内容的系统。LightFM估计特征嵌入通过分解协同交易矩阵；这不想基于内容系统其分解纯内容共同出现矩阵。
一个特殊的例子当lightFM可以缩减到一个纯基于内容模型，其中每个用户由一个指示标量描述并只和一个item交易。在那种设定，用户向量对于文档向量是相等的在LSI公式中，并只有特征其在产品描述中共同出现才有相似的嵌入。事实上LightFM包含纯的基于内容模型在稀疏数据和矩阵分解模型在谜语数据，显示它应该适用于不同密度的数据集。
3 相关工作
存在一些相关混合模型尝试去解决冷启动问题通过共同建模内容和协同数据。【21】表示用户作为item的特征向量的线性结合，item为用户感兴趣的。使用LSI在结果item-feature 矩阵来得到隐藏用户
明天继续。。。。回家

阅读全文

0 0