协同过滤算法python实现简单入门详细注释
来源:互联网 发布:php防止sql注入代码 编辑:程序博客网 时间:2024/04/24 03:21
基于Python2.7 数据集为MovieLens 100k数据集# -*-coding=utf-8 -*-import sysimport mathfrom texttable import Texttable#算法流程:#1、建立电影-用户的倒排表,表示电影被那些用户看过#2、从目标用户看过的每一步电影开始遍历#3、寻找和目标用户有共同看过电影交集的所有用户作为初始邻居#4、对初始邻居里边的每一个邻居,计算和目标用户的余弦夹角相似度#5、建立相似度到用户的倒排表,相似度从高到低排列#6、根据相似度找出最近k邻居#7、从最近k邻看过的所有的电影开始遍历# 这里的推荐思路是:对于最近k邻居看过的所有电影中的某一电影m# 如果m仅仅被一个邻居看过,那么目标用户对此电影的的兴趣度就是目标用户和这个邻居的相似度# 如果m被多个邻居看过,那么目标用户对此电影的相似度为目标用户与这些邻居相似度之和#8、建立目标用户兴趣度-电影id的倒排表#9、根据兴趣度由大到小进行推荐 #计算余弦距离#listUser2Score[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2#dist = getCosDist(listUser2Score[userId], listUser2Score[neighbor])def getCosDist(user1, user2): sum_x = 0.0 sum_y = 0.0 sum_xy = 0.0 for key1 in user1: for key2 in user2:# key1[0]表示电影id,key1[1]表示对电影的评分# 如果是两个用户共同评价的一部电影 if key1[0] == key2[0]: sum_x += key1[1] * key1[1] sum_y += key2[1] * key2[1] sum_xy += key1[1] * key2[1] if sum_xy == 0.0: return 0 demo = math.sqrt(sum_x * sum_y) return sum_xy / demo#读取文件,读取以行为单位,每一行是列表里的一个元素def readFile(filename): contents = [] f = open(filename, "r") contents = f.readlines() f.close() return contents#数据格式化为二维数组def getRatingInfo(ratings): rates = [] for line in ratings: rate = line.split("\t")# u.data# user id | item id | rating | timestamp. rates.append([int(rate[0]), int(rate[1]), int(rate[2])]) return rates#生成用户评分数据结构def getUserScoreDataStructure(rates): #listUser2Score[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2 listUser2Score = {}#dictItem2Users{},key=item id,value=user id list dictItem2Users = {} for k in rates:# u.data# user id | item id | rating | timestamp. user_rank = (k[1], k[2]) if k[0] in listUser2Score: listUser2Score[k[0]].append(user_rank) else: listUser2Score[k[0]] = [user_rank] if k[1] in dictItem2Users: dictItem2Users[k[1]].append(k[0]) else: dictItem2Users[k[1]] = [k[0]] return listUser2Score, dictItem2Users#计算与目标用户def getNearestNeighbor(userId, listUser2Score, dictItem2Users): neighbors = []#listUser2Score[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2# 对于目标用户userId的每一个评价过的项目item for item in listUser2Score[userId]:#dictItem2Users{},key=item id,value=user id list#item[0]表示电影id,item[1]表示电影评分#dictItem2Users[item[0]]=dictItem2Users[电影id]=value=评价过这个电影的用户列表#从评价过这个电影的用户列表里,计算目标用户和这个列表里边所有用户的相似度 for neighbor in dictItem2Users[item[0]]:#如果这个邻居不是目标用户并且这个邻居还没有被加入邻居集就加进来 if neighbor != userId and neighbor not in neighbors: neighbors.append(neighbor) neighbors_dist = []#里边存储的是[相似度,邻居id] for neighbor in neighbors:#listUser2Score[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2 dist = getCosDist(listUser2Score[userId], listUser2Score[neighbor]) neighbors_dist.append([dist, neighbor])# 按照相似度倒排,相似度从道到低 neighbors_dist.sort(reverse = True) return neighbors_dist#使用UserFC进行推荐,输入:文件名,用户ID,邻居数量def recommendByUserFC(filename, userId, k = 5):#读取文件 contents = readFile(filename)#文件格式数据转化为二维数组 rates = getRatingInfo(contents)#格式化成字典数据 listUser2Score, dictItem2Users = getUserScoreDataStructure(rates)#找邻居#找出最相似的前五个邻居 neighborsTopK = getNearestNeighbor(userId, listUser2Score, dictItem2Users)[:5]#neighborsTopK存储了相似度和邻居id的倒排表#所以neighbor[1]表示邻居id,neighbor[0]表示相似度#这里的推荐思路是:对于最近k邻居看过的所有电影中的某一电影m#如果m仅仅被一个邻居看过,那么目标用户对此电影的的兴趣度就是目标用户和这个邻居的相似度#如果m被多个邻居看过,那么目标用户对此电影的相似度为目标用户与这些邻居相似度之和#建立推荐字典 recommand_dict = {} for neighbor in neighborsTopK: neighbor_user_id = neighbor[1]#找出这个邻居看过的所有电影信息 movies = listUser2Score[neighbor_user_id] for movie in movies: if movie[0] not in recommand_dict: recommand_dict[movie[0]] = neighbor[0] else: recommand_dict[movie[0]] += neighbor[0]#建立推荐列表 recommand_list = [] for key in recommand_dict:#建立目标用户兴趣度-电影id的倒排表 recommand_list.append([recommand_dict[key], key]) recommand_list.sort(reverse = True)#listUser2Score列表里边的元素是电影id到电影评分的键值对#所以这里的k[0]表示电影id,k[1]表示电影评分 user_movies = [k[0] for k in listUser2Score[userId]]#recommand_list存储的是目标用户兴趣度到电影id的倒排表#所以这里的的k[1]表示的是电影id,k[0]表示的是兴趣度 return [k[1] for k in recommand_list], user_movies, dictItem2Users, neighbors#获取电影的列表def getMovieList(filename): contents = readFile(filename) movies_info = {} for movie in contents: single_info = movie.split("|") movies_info[int(single_info[0])] = single_info[1:] return movies_info#从这里开始运行 if __name__ == '__main__': reload(sys) sys.setdefaultencoding('utf-8')#获取所有电影的列表,所有电影id到电影名字的键值对 dictMovieId2Info = getMovieList("u.item") listRecommendMovieId, user_movie, items_movie, neighbors = recommendByUserFC("u.data", 50, 80) neighbors_id=[ i[1] for i in neighbors] table = Texttable() table.set_deco(Texttable.HEADER) table.set_cols_dtype(['t', 't', 't']) table.set_cols_align(["l", "l", "l"]) rows=[] rows.append([u"movie name",u"release time", u"from userid"])#打印推荐列表的前20项数据,listRecommendMovieId里边存储的仅仅是id for movie_id in listRecommendMovieId[:20]: from_user=[] for user_id in items_movie[movie_id]: if user_id in neighbors_id: from_user.append(user_id)#dictMovieId2Info[movie_id][0]表示电影名 dictMovieId2Info[movie_id][1]表示时间 rows.append([dictMovieId2Info[movie_id][0],dictMovieId2Info[movie_id][1],from_user]) table.add_rows(rows) print table.draw()
1 0
- 协同过滤算法python实现简单入门详细注释
- 协同过滤算法的Python实现
- python 实现协同过滤推荐算法
- 协同过滤算法实现
- MapReduce简单实现基于物品的协同过滤算法
- php+mysql实现简单的协同过滤推荐算法
- php+mysql实现简单的协同过滤推荐算法
- 基于用户的协同过滤算法的Python实现
- 基于用户协同过滤的推荐系统算法,python 实现
- 利用Python实现基于协同过滤算法的影片推荐
- 协同过滤的简单实现
- R实现协同过滤算法
- 协同过滤算法mahout实现
- sparkMlib实现协同过滤算法
- Hadoop实现协同过滤算法
- 协同过滤算法——入门
- 一个简单的协同过滤推荐算法
- 简单的协同过滤推荐算法
- 几种主流贴图压缩算法的实现原理
- JAVA学习笔记5--加载第三方jar包
- Bootstrap的图片轮播示例代码
- Structure and inference in annotated networks - note
- SSH中主键生成策略
- 协同过滤算法python实现简单入门详细注释
- 2946: [Poi2000]公共串 二分+hash
- find、grep、wc使用方法简单总结
- hdu 2842 Chinese Rings(矩阵递推)
- VS2012 scanf()运行通不过的时候,提示需要使用scanf_s()的解决办法。
- 线程池与cp命令的实现
- Android 异常解决 content.ActivityNotFoundException: Unable to find explicit activity class
- Unity Notes之协程(Coroutine)简析
- 【LeetCode OJ 242】Valid Anagram