网易云音乐推荐系统学习(1)

来源:互联网 发布:数据统计网站 源码 编辑:程序博客网 时间:2024/05/17 04:46
首先,推荐算法有三种常用的基本套路
1、基于内容的推荐(content-based filtering)。 是音乐信息检索的领域,学术上一般content-based是特指音频内容本身的,主要涉及feature extraction,专辑、歌手和歌词等基于text或tags的因素,通常用来与content相结合来提高检索效率的。
2、基于协同过滤推荐(collaboration filtering)。基于广义的排行榜行和热门排行进行推荐。
3、社会化推荐(social recommendation)。基于关系的推荐。

音乐推荐的如下特点。
物品空间大 物品数很多,物品空间很大,这主要是相对于书和电影而言。
消费每首歌的代价很小 对于在线音乐来说,音乐都是免费的,不需要付费。
物品种类丰富 音乐种类丰富,有很多的流派。
听一首歌耗时很少 听一首音乐的时间成本很低,不太浪费用户的时间,而且用户大都把音乐作为背景声音,同时进行其他工作。
物品重用率很高 每首歌用户会听很多遍,这和其他物品不同,比如用户不会反复看一个电影,不会反复买一本书。
用户充满激情 用户很有激情,一个用户会听很多首歌。
上下文相关 用户的口味很受当时上下文的影响,这里的上下文主要包括用户当时的心情(比如沮丧的时候喜欢听励志的歌曲)和所处情境(比如睡觉前喜欢听轻音乐)。
次序很重要 用户听音乐一般是按照一定的次序一首一首地听。
很多播放列表资源 很多用户都会创建很多个人播放列表。
不需要用户全神贯注 音乐不需要用户全神贯注地听,很多用户将音乐作为背景声音。
高度社会化 用户听音乐的行为具有很强的社会化特性,比如我们会和好友分享自己喜欢的音乐。
上面这些特点决定了音乐是一种非常适合用来推荐的物品。

Pandora的算法主要基于内容,其音乐家和研究人员亲自听了上万首来自不同歌手的歌,然后对歌曲的不同特性(比如旋律、节奏、编曲和歌词等)进行标注,这些标注被称为音乐的基因。然后,Pandora会根据专家标注的基因计算歌曲的相似度,并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。

Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈,在这一基础上计算出不同用户在歌曲上的喜好相似度,从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。同时,Last.fm也建立了一个社交网络,让用户能够和其他用户建立联系,同时也能让用户给好友推荐自己喜欢的歌曲。和Pandora相比,Last.fm没有使用专家标注,而是主要利用用户行为计算歌曲的相似度。

目前大部分做推荐的应用推荐逻辑应该都是多种逻辑并行。
编辑推荐和用户推荐的歌曲一般会有专门的版块展示。
个性化推荐理论上来讲都是通过算法直接从大库里面由程序产出的。
1)冷启动的时候基于热度的推荐会比较多,推荐流行热点音乐总是不会错的。
2)在用户使用一段时间,用户行为达到一定样本量以后,程序开始通过内容和社交关系逻辑产出内容,并且与热门内容按照一定比例推送给用户。
用户所有的行为(包括下载/喜欢,评论,播放完成度,播放次数等等)都会以不同的权重呈现在后续的推荐逻辑中。

至于准确不准确,合不合口味这个事情,与推荐算法的关系其实是不大的。做内容推荐的关键是内容质量是否过关。也就是音乐库里面对不同歌曲,不同歌手的音乐基因标记的是否正确,是否够专业,我觉得Jing.FM是近两年相对专业一些的个性化电台。


1 0
原创粉丝点击