RecSys的Yelp推荐比赛数据简单分析
来源:互联网 发布:2016年地区数据库 编辑:程序博客网 时间:2024/06/01 07:39
支票检测的项目催得很紧,手写体识别这块也不是很顺利,之前断断续续也没有把Yelp的比赛起个好的开头。这周末最后还是放弃了wap的coding题,把Yelp的数据做了一下简单的数据分析。只是重点对评分review进行分析,没有对tag、checkin等其他做分析
任务描述
比赛任务基于主办方给出的商家信息、用户信息、用户在商家的check-in信息和评论信息进行商家推荐。算法是需要参赛者预测用户对其未曾打分的商家的打分。
训练数据
训练数据集包含四个文件
yelp_training_set_business.json(主要包含商家的信息)
yelp_training_set_checkin.json(用户对商家的checkin信息)
yelp_training_set_review.json(用户对商家的评论以及评论,包含打分数据)
yelp_training_set_user.json(用户profile信息,只包含了公开自己信息的user,user信息不全)
主要对商家、用户和review信息进行分析
对business.json和user.json文件进行分析
用户user数量:43873
商家business数量:11537
对用户对商家的评论review.json文件分析结果
review打分条目数量:229907
用户user数量:45981
商家business数量:11537
评分矩阵稀疏性:0.4334%
用户打分平均分:3.7667
打分标准差:1.217
结论:商家数量一致,但是打分数据中有2108个用户没有user信息
用户评分直方图
训练集的log-log图
测试数据
同样测试数据同样包含类似4个文件,主要以test_review.json为主,需要预测里面的user对business的打分
对test_review.json的user和business进行分析(并没有对test_user和test_business进行分析)
测试数据需要预测评分条目数量:22956
测试数据用户user数量:11926
测试数据商家business数量:5585
测试数据中存在但训练数据中不存在的user:5315
测试数据中存在但训练数据中不存在的business:1205
结论:和百度电影推荐比赛不同的是,这里还需要重点考虑冷启动的问题!
- RecSys的Yelp推荐比赛数据简单分析
- python-recsys:一款实现推荐系统的python库
- 推荐比赛的几次尝试
- 分析简单的数据
- 看衰Yelp的理由
- 论文笔记-recsys'12-Xbox推荐系统: Bayesian MF
- 免费的数据可视化分析工具推荐
- 推荐大数据分析的八大工具
- 利用Python进行NBA比赛数据分析
- NBA比赛数据分析与预测
- python | 简单的数据分析
- 数据比赛实现的细节
- 【数据挖掘实战】之天猫移动推荐比赛
- Goole CTF 比赛 逆向组 Moom.exe 的逆向过程简单分析
- 数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
- 数据挖掘比赛入门_以去年阿里天猫推荐比赛为例
- 22个免费的数据可视化和分析工具推荐
- 22个免费的数据可视化和分析工具推荐
- Mac OS X系统应该如何维护和保养
- Android学习笔记之AndroidManifest.xml文件解析
- 通过struts2的配置文件访问jsp
- Android自测题13
- Android应用程序资源访问
- RecSys的Yelp推荐比赛数据简单分析
- SQL Server xtype的介绍
- java 从服务上获取一张图片
- uninstall make install
- 北京设计模式学习组BJDP第3次活动(2013.06.01)回顾会纪要
- Android 初识
- The 10th Zhejiang Provincial Collegiate Programming Contest Solution
- HDU1240:Asteroids!(BFS)
- 时区日期处理及定时 (NSDate,NSCalendar,NSTimer,NSTimeZone) -- IOS(实例)