推荐系统——冷启动问题

来源:互联网 发布:电商公司数据分析 编辑:程序博客网 时间:2024/05/19 23:04

冷启动简介:

①用户冷启动:
如何给新用户个性化推荐问题
②物品冷启动:
如何将新的物品推荐给可能对他感兴趣的用户
③系统冷启动:
如何在一个新开发的网站上设计个性化推荐系统

即提供非个性化的推荐,即提供热门排行榜,之后再个性化

一.利用用户注册信息

在网站中,当新用户刚注册时,只能给他推荐一些热门的商品,但如果知道她是一位女性,则可以推荐女性都喜欢的热门商品,当然这个粒度很粗,但利用注册信息确实可以解决一些用户冷启动问题

用户注册信息分3中:
①人口统计学信息:包括年龄、性别、职业、民族、学历、居住地(粗粒化推荐)
②用户兴趣的描述
③从其它网站导入的用户站外行为数据:比如通过豆瓣、新浪微博的账号登陆
基于用户注册信息的推荐算法其核心问题是计算每种特征的用户喜欢的物品,即计算具有这种特征的用户对各个物品的喜好程度p(f,i)

P(f,i) = | N(i)∩U(f) | / | N(i) | + a

N(i)是喜欢物品i的用户集合,U(f)是具有特征f的用户集合,参数a的目的是解决数据系数的问题。比如有一个物品只被一个用户喜欢过,而这个用户刚好就有特征f,那么p(f,i)=1,但是这种情况没有意义,因此加上一个较大的数,避免这样的物品产生大的权重

二.选择合适的物品启动用户的兴趣

这个方法是在新用户第一次访问推荐系统时,不立即给用户展示推荐结果,而是给用户提供一些物品,让用户反馈他们对这些物品的兴趣,然后根据反馈提供个性化推荐。例:Jinni会给出一条提示语,表示用户需要给多部电影评分才能获取推荐结果。

一般来说能够用来启动用户兴趣的物品需要具有以下特点:
①比较热门:
让用户熟知或认识,否则如何评分
②具有代表性:
以电影为例,用一部票房很高且受欢迎的电影做启动物品,可以想象的到时几乎所有用户都会喜欢这部电影,无法区分个性化兴趣
③多样性

三.利用物品的内容信息

物品冷启动在新闻网站等时效性很强的网站中非常重要,因为那些网站中时时刻刻都有新加入的物品,而且每个物品必须能够在第一时间展现给用户

生成向量空间模型,将物品表示成一个关键词向量:

D = {( e1,w1 ),( e2,w2 ), ...}

e1就是关键词,wi就是对应的权重

W = di*dj / sqrt( || di ||*|| dj || )

物品相似度通过向量之间的余弦相似度计算

物品相似度算法和ItemCF各有优势,当关键词很明显时相似度算法要优于ItemCF的,但多数情况下还是ItemCF要优异。结合两者,能起到1+1>2的效果

0 0
原创粉丝点击