RecSys的Yelp推荐比赛数据简单分析

来源:互联网 发布:2016年地区数据库 编辑:程序博客网 时间:2024/06/01 07:39

支票检测的项目催得很紧,手写体识别这块也不是很顺利,之前断断续续也没有把Yelp的比赛起个好的开头。这周末最后还是放弃了wap的coding题,把Yelp的数据做了一下简单的数据分析。只是重点对评分review进行分析,没有对tag、checkin等其他做分析

任务描述

比赛任务基于主办方给出的商家信息、用户信息、用户在商家的check-in信息和评论信息进行商家推荐。算法是需要参赛者预测用户对其未曾打分的商家的打分。


训练数据

训练数据集包含四个文件

yelp_training_set_business.json(主要包含商家的信息)

yelp_training_set_checkin.json(用户对商家的checkin信息)

yelp_training_set_review.json(用户对商家的评论以及评论,包含打分数据)

yelp_training_set_user.json(用户profile信息,只包含了公开自己信息的user,user信息不全)


主要对商家、用户和review信息进行分析

business.json和user.json文件进行分析

用户user数量:43873

商家business数量:11537

对用户对商家的评论review.json文件分析结果

review打分条目数量:229907

用户user数量:45981

商家business数量:11537

评分矩阵稀疏性:0.4334%

用户打分平均分:3.7667

打分标准差:1.217

结论:商家数量一致,但是打分数据中有2108个用户没有user信息


用户评分直方图


训练集的log-log图




测试数据

同样测试数据同样包含类似4个文件,主要以test_review.json为主,需要预测里面的user对business的打分

对test_review.json的user和business进行分析(并没有对test_user和test_business进行分析)

测试数据需要预测评分条目数量:22956

测试数据用户user数量:11926

测试数据商家business数量:5585

测试数据中存在但训练数据中不存在的user:5315

测试数据中存在但训练数据中不存在的business:1205

结论:和百度电影推荐比赛不同的是,这里还需要重点考虑冷启动的问题!