Movielens数据集详细介绍
来源:互联网 发布:淘宝舒口健牙膏 编辑:程序博客网 时间:2024/05/18 03:55
MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。下载地址为:http://files.grouplens.org/datasets/movielens/
下面以ml-100k数据集为例进行介绍:
最主要用的是u.data(评分) | u.item(电影信息) | u.user(用户信息)
打开数据集如下图:
各文件含义如下:
allbut.pl --生成训练和测试集的脚本,其中除了n个用户评分之外,所有训练和测试集都在训练数据中。
mku.sh --从u.data数据集生成的所有用户的shell脚本。
u.data -- 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号。数据是随机排序的。
标签分隔列表:user id | item id | rating | timestamp
u.genre --类型列表。
u.info --u.data数据集中的用户数,电影数和评分数。
u.item --电影信息。标签分隔列表:movie id | movie title | release date | video release date | IMDb URL |
unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama |
Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western
最后19个字段是流派,1表示电影是该类型,0表示不是;电影可以同时使用几种流派。
电影id和u.data数据集中的id是一致的。
u.occupation --职业列表。
u.user --用户的人口统计信息。标签分隔列表:user id | age | gender | occupation | zip code
用户id和u.data数据集中的id是一致的。
u1.base --数据集u1.base / u1.test到u5.base / u5.test都是将u.data数据集按照80% / 20%的比例分割的训练集和测试集。
u1.test u1,...,u5有互不相交的测试集;如果是5次交叉验证,那么你可以在每个训练和测试集中重复实验,平均结果。
u2.base 这些数据集可以通过mku.sh从u.data生成
u2.test
u3.base
u3.test
u4.base
u4.test
u5.base
u5.test
ua.base --数据集ua.base, ua.test, ub.base, ub.test将u.data数据集分为训练集和测试集,每个用户在测试集中具有10个评分。
ua.test ua.test和ub.test是不相交的。这些数据集可以通过mku.sh从u.data生成
ub.base
ub.test
对于MovieLens数据集的简单探索,可以看这篇博文:http://blog.csdn.net/u013527419/article/details/53264741
想下载各个领域的数据集,可以从这里:
1、https://zhuanlan.zhihu.com/p/25138563
2、http://archive.ics.uci.edu/ml/index.php
- Movielens数据集详细介绍
- movielens数据集.dat文件导入msql
- 机器学习(6) MovieLens数据集
- 电影数据集总结:Netflix、MovieLens、LDOS-CoMoDa、AdomMovie
- 使用FEA Spk探索经典数据集MovieLens
- 用pandas处理MovieLens 1m 数据集
- movielens大数据存储技巧
- 利用Python进行数据分析---ch02《MovieLens 1M数据集(上)》读书笔记
- 利用Python进行数据分析---ch02《MovieLens 1M数据集(下)》读书笔记
- 数据挖掘-matlab实现基于MovieLens数据集的协同过滤电影推荐系统
- 数据挖掘-MovieLens数据集_电影推荐_亲和性分析_Aprioro算法
- 《利用Python进行数据分析》笔记---第2章--MovieLens 1M数据集
- 推荐系统-基于用户的最近邻协同过滤算法(MovieLens数据集)
- 推荐系统-基于用户的最近邻协同过滤算法(MovieLens数据集)
- 用MovieLens数据集做推荐(Python推荐系统二)
- 用MovieLens数据集做推荐(Python推荐系统二)
- 推荐系统系列---基于movielens数据集的KNN算法与矩阵分解算法比较
- 使用Scikit-learn实现基于内存的协同过滤算法(使用movieLens数据集)
- 第4章 构建Node Web程序
- codeforces模拟专题
- 2014上海全国邀请赛训练总结【7/10】
- spring的事物
- HDU-2141(二分查找)
- Movielens数据集详细介绍
- OpenCL的多GPU开发(顺便提一下OpenGL的多GPU开发)
- 手撸代码目录
- 初探Spring之动态代理的使用
- 【hdoj 4081】 Qin Shi Huang's National Road System 【次小生成树 应用变形】
- 链表逆置真的那仫简单吗?
- c语言谭浩强课后作业乒乓球选对手问题
- C++学习日记(玩具谜题AC,)
- IDA权威指南阅读笔记1