【推荐系统】推荐系统常用数据集

来源:互联网 发布:javzoo最新域名 编辑:程序博客网 时间:2024/06/08 17:25

最近在做融合评论信息的推荐系统,找到了许多数据集,就在这里总结一下吧。


Retailrocket 商品评论和推荐数据

The dataset consists of three files: a file with behaviour data (events.csv), a file with item properties (item_properties.csv) and a file, which describes category tree (category_tree.csv). The data has been collected from a real-world ecommerce website. It is raw data, i.e. without any content transformations, however, all values are hashed due to confidential issues. The purpose of publishing is to motivate researches in the field of recommender systems with implicit feedback.


主要适用于隐式反馈推荐系统

下载地址:https://www.kaggle.com/retailrocket/ecommerce-dataset


Million Songs Dataset 百万音乐数据集

The Million Song Dataset is also a cluster of complementary datasets contributed by the community:

  • SecondHandSongs dataset -> cover songs
  • musiXmatch dataset -> lyrics
  • Last.fm dataset -> song-level tags and similarity
  • Taste Profile subset -> user data
  • thisismyjam-to-MSD mapping -> more user data
  • tagtraum genre annotations -> genre labels
  • Top MAGD dataset -> more genre labels

包含多种类型的音乐数据集,适用于带标签的推荐系统

下载地址https://labrosa.ee.columbia.edu/millionsong/


Yelp 点评网站官方公开数据

包含470万评论和15.6万商家信息,以及相应的商品图片,适用于加入评论元素的推荐系统

下载地址:https://www.yelp.com/dataset


Amazon product data

数据集包含了亚马逊各类商品的数据,分为只有评分的数据集和即有评论也有评分的数据集

适用于加入评论元素的推荐系统

下载地址:http://jmcauley.ucsd.edu/data/amazon/


Epinions Dataset

包括用户trust关系、用户对item的打分信息、评论信息

下载地址:http://www.trustlet.org/epinions.html


HetRec2011 Dataset

包括了movielens-2k、delicious-2k和last.fm-2k。

在movielens-2k中,电影的信息更加丰富了,有IMDB和Rotten Tomatoes的信息,具体还有电影对应的genre、director、actor、发行的国家、拍摄的地点、tag信息,当然还有打分信息。

在delicious-2k中,是用户对bookmark(书签)的tag信息。具体包括用户之间的relation、书签的title和url、用户对书签使用的tag。这个数据集适用于tag的推荐。

在last.fm-2k中,是用户收听音乐的信息。具体包括双向的朋友关系、艺术家、用户收听艺术家信息(有weight)、用户对艺术家的tag信息、艺术家tag信息。

适用于加入标签的推荐系统

下载地址:https://grouplens.org/datasets/hetrec-2011/



sugar~




原创粉丝点击