KDD Cup2011

来源:互联网 发布:怎样创建数据库 编辑:程序博客网 时间:2024/06/07 09:19

KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文

 

Yahoo! Music - Dataset
• 262,810,175 Ratings:
<user id>  <item id>  <score>  <date>  <time>


(Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940)


• Users: 1,000,990 Items: 624,961


Time period: 11 years

 

数据全部是真实的yahoo数据。

 

音乐样本提供了分类信息,包括以下4种:
• Taxonomy:


– Tracks:  507,172
– Albums: 88,909
– Artists:   27,888
– Genres:  992

 

但是具体的音乐profile,例如长度、流派、风格等特征没有提供。因此content based推荐方法很难找到突破,这次的比赛应该是以协同过滤(collaborative filtering)、矩阵分解等方法为主,最终多个predictor组合的方式。traxonomy作为补充的特征,可以在blend的时候起一些辅助的作用。

 

Two tracks:


– Track 1: minimize squared error on given ratings


– Track 2: separate highly rated items from never rated items


Generalize models to items never rated by the users


• Very large number of items (over 600K)


• Employ hierarchical relations (taxonomy) between

 


items


• Accurate timestamps of ratings; facilitates session analysis

 

个人认为,KDD Cup 2011这次的比赛中,时间因素要特别关注,用户对music的评分,随时间的变化应该是能找到规律的,这些规律对最终的评分预测会有不小的影响。是否能把握准time bias,会成为最终的胜负手。

协同过滤在这次比赛中应该占有非常重要的作用。从数据特征来看,item-based collaborative filtering会比user-based CF更适合。item之间的nearest neighbor计算,可以找出很多不同的思路。

另外,从Netflix比赛胜者的经验来看,当时矩阵分解的方法有相当明显的优势,因此SVD和对应的众多改进方案是必不可少的。SVD通常用在显式的用户评分matrix上,对这次比赛来说,如何建立一个更合理的score matrix,应该也会显著的影响最终的评分

另外,RMSE这种评价方案,估计更倾向于多个推荐系统combine的算法,这个需要套用很多现有的组合框架了