KDD Cup2011

来源：互联网发布：怎样创建数据库编辑：程序博客网时间：2024/06/07 09:19

KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文

Yahoo! Music - Dataset
• 262,810,175 Ratings:
<user id> <item id> <score> <date> <time>

(Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940)

• Users: 1,000,990 Items: 624,961

Time period: 11 years

数据全部是真实的yahoo数据。

音乐样本提供了分类信息，包括以下4种：
• Taxonomy:

– Tracks: 507,172
– Albums: 88,909
– Artists: 27,888
– Genres: 992

但是具体的音乐profile，例如长度、流派、风格等特征没有提供。因此content based推荐方法很难找到突破，这次的比赛应该是以协同过滤（collaborative filtering）、矩阵分解等方法为主，最终多个predictor组合的方式。traxonomy作为补充的特征，可以在blend的时候起一些辅助的作用。

Two tracks:

– Track 1: minimize squared error on given ratings

– Track 2: separate highly rated items from never rated items

Generalize models to items never rated by the users

• Very large number of items (over 600K)

• Employ hierarchical relations (taxonomy) between

items

• Accurate timestamps of ratings; facilitates session analysis

个人认为，KDD Cup 2011这次的比赛中，时间因素要特别关注，用户对music的评分，随时间的变化应该是能找到规律的，这些规律对最终的评分预测会有不小的影响。是否能把握准time bias，会成为最终的胜负手。

协同过滤在这次比赛中应该占有非常重要的作用。从数据特征来看，item-based collaborative filtering会比user-based CF更适合。item之间的nearest neighbor计算，可以找出很多不同的思路。

另外，从Netflix比赛胜者的经验来看，当时矩阵分解的方法有相当明显的优势，因此SVD和对应的众多改进方案是必不可少的。SVD通常用在显式的用户评分matrix上，对这次比赛来说，如何建立一个更合理的score matrix，应该也会显著的影响最终的评分

另外，RMSE这种评价方案，估计更倾向于多个推荐系统combine的算法，这个需要套用很多现有的组合框架了