程序博客网 > java递归获取父节点

推荐系统研究常用数据库

来源：互联网发布：java递归获取父节点编辑：程序博客网时间：2024/06/06 11:01

推荐系统学术研究常用的数据集包括：
MovieLens，MovieLens数据集中，用户对自己看过的电影进行评分，分值为1~5。MovieLens包括两个不同大小的库，适用于不同规模的算法。小规模的库是943个独立用户对1 682部电影作的10 000次评分的数据；大规模的库是6 040个独立用户对3 900部电影作的大约100万次评分。
EachMovie，HP/Compaq的DEC研究中心曾经在网上架设EachMovie电影推荐系统对公众开放。之后，这个推荐系统关闭了一段时间，其数据作为研究用途对外公布，MovieLens的部分数据就是来自于这个数据集的。这个数据集有72 916个用户对1 628部电影进行的2 811 983次评分。早期大量的协同过滤的研究工作都是基于这个数据集的。2004年HP重新开放EachMovie，这个数据集就不提供公开下载了。
BookCrossing，这个数据集是网上的Book-Crossing图书社区的278 858个用户对271 379本书进行的评分，包括显式和隐式的评分。这些用户的年龄等人口统计学属性(demographic feature)都以匿名的形式保存并供分析。这个数据集是由Cai-Nicolas Ziegler使用爬虫程序在2004年从Book-Crossing图书社区上采集的。
Jester Joke，Jester Joke是一个网上推荐和分享笑话的网站。这个数据集有73 496个用户对100个笑话作的410万次评分。评分范围是−10~10的连续实数。这些数据是由加州大学伯克利分校的Ken Goldberg公布的。
Netflix，这个数据集来自于电影租赁网址Netflix的数据库。Netflix于2005年底公布此数据集并设立百万美元的奖金(netflix prize[47])，征集能够使其推荐系统性能上升10%的推荐算法和架构。这个数据集包含了480 189个匿名用户对大约17 770部电影作的大约10亿次评分。
Usenet Newsgroups，这个数据集包括20个新闻组的用户浏览数据。最新的应用是在KDD 2007上的论文[49]。新闻组的内容和讨论的话题包括计算机技术、摩托车、篮球、政治等。用户们对这些话题进行评价和反馈。
UCI知识库，UCI知识库是Blake等人在1998年开放的一个用于机器学习和评测的数据库，其中存储大量用于模型训练的标注样本，被用于推荐系统的性能测试数据。

一个完整的推荐系统由3个部分组成:收集用户信息的行为记录模块,分析用户喜好的模型分析模块和推荐算法模块.行为记录模块负责记录用户的喜好行为,例如问答、评分、购买、下载、浏览等.问答和打分的信息相对好收集,然而有的用户不愿意向系统提供这些信息,那么就需要通过其他方式对用户的行为进行分析,例如购买、下载、浏览等行为.通过这些用户的行为记录分析用户的潜在喜好产品和喜欢程度.这就是模型分析模块要完成的工作.模型分析模块的功能能够对用户的行为记录进行分析,建立合适的模型来描述用户的喜好信息.最后是推荐算法模块,利用后台的推荐算
法,实时地从产品集合中筛选出用户感兴趣的产品进行推荐.其中,推荐算法模块是推荐系统中最为核心的部分.

0 0

java递归获取父节点

java递归获取父节点

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子龙谷在线龙豆龙豆的做法龙豆怎么做好吃龙起1924 龙起1924txt下载龙趸龙辉集团龙辉格尔木易龙辉被捕上海龙辉餐饮管理有限公司山东龙辉起重机械有限公司龙辉花园二手房洛清妍跨坐到龙辉脸上新网王u17之越前龙辉龙辰龙达龙运龙迪自行车龙迪龙迹玻璃异界龙迹天下落日金仙龙迹龙邦物流龙邦龙邦速递龙邦快运龙邦速运龙邦物流单号查询龙邦物流单号龙邦物流单号查询跟踪广东龙邦物流有限公司龙邦速递电话龙邦快运单号查询查询龙邦建设股份有限公司龙邦物流查询龙邦物流公司云龙观邸二手房济南中海奥龙观邸云龙观邸新华锦龙邸