网易云音乐推荐系统学习（1）

来源：互联网发布：数据统计网站源码编辑：程序博客网时间：2024/05/17 04:46

首先，推荐算法有三种常用的基本套路
1、基于内容的推荐（content-based filtering）。是音乐信息检索的领域，学术上一般content-based是特指音频内容本身的，主要涉及feature extraction，专辑、歌手和歌词等基于text或tags的因素，通常用来与content相结合来提高检索效率的。
2、基于协同过滤推荐（collaboration filtering）。基于广义的排行榜行和热门排行进行推荐。
3、社会化推荐（social recommendation）。基于关系的推荐。

音乐推荐的如下特点。
物品空间大　物品数很多，物品空间很大，这主要是相对于书和电影而言。
消费每首歌的代价很小　对于在线音乐来说，音乐都是免费的，不需要付费。
物品种类丰富　音乐种类丰富，有很多的流派。
听一首歌耗时很少　听一首音乐的时间成本很低，不太浪费用户的时间，而且用户大都把音乐作为背景声音，同时进行其他工作。
物品重用率很高　每首歌用户会听很多遍，这和其他物品不同，比如用户不会反复看一个电影，不会反复买一本书。
用户充满激情　用户很有激情，一个用户会听很多首歌。
上下文相关　用户的口味很受当时上下文的影响，这里的上下文主要包括用户当时的心情（比如沮丧的时候喜欢听励志的歌曲）和所处情境（比如睡觉前喜欢听轻音乐）。
次序很重要　用户听音乐一般是按照一定的次序一首一首地听。
很多播放列表资源　很多用户都会创建很多个人播放列表。
不需要用户全神贯注　音乐不需要用户全神贯注地听，很多用户将音乐作为背景声音。
高度社会化　用户听音乐的行为具有很强的社会化特性，比如我们会和好友分享自己喜欢的音乐。
上面这些特点决定了音乐是一种非常适合用来推荐的物品。

Pandora的算法主要基于内容，其音乐家和研究人员亲自听了上万首来自不同歌手的歌，然后对歌曲的不同特性（比如旋律、节奏、编曲和歌词等）进行标注，这些标注被称为音乐的基因。然后，Pandora会根据专家标注的基因计算歌曲的相似度，并给用户推荐和他之前喜欢的音乐在基因上相似的其他音乐。

Last.fm记录了所有用户的听歌记录以及用户对歌曲的反馈，在这一基础上计算出不同用户在歌曲上的喜好相似度，从而给用户推荐和他有相似听歌爱好的其他用户喜欢的歌曲。同时，Last.fm也建立了一个社交网络，让用户能够和其他用户建立联系，同时也能让用户给好友推荐自己喜欢的歌曲。和Pandora相比，Last.fm没有使用专家标注，而是主要利用用户行为计算歌曲的相似度。

目前大部分做推荐的应用推荐逻辑应该都是多种逻辑并行。
编辑推荐和用户推荐的歌曲一般会有专门的版块展示。
个性化推荐理论上来讲都是通过算法直接从大库里面由程序产出的。
1）冷启动的时候基于热度的推荐会比较多，推荐流行热点音乐总是不会错的。
2）在用户使用一段时间，用户行为达到一定样本量以后，程序开始通过内容和社交关系逻辑产出内容，并且与热门内容按照一定比例推送给用户。
用户所有的行为（包括下载/喜欢，评论，播放完成度，播放次数等等）都会以不同的权重呈现在后续的推荐逻辑中。

至于准确不准确，合不合口味这个事情，与推荐算法的关系其实是不大的。做内容推荐的关键是内容质量是否过关。也就是音乐库里面对不同歌曲，不同歌手的音乐基因标记的是否正确，是否够专业，我觉得Jing.FM是近两年相对专业一些的个性化电台。

1 0