利用python进入数据分析之MovieLens_1M数据分析
来源:互联网 发布:ios9越狱后必装软件源 编辑:程序博客网 时间:2024/06/08 13:44
In [26]:
import pandas as pdimport osencoding = 'latin1'upath = os.path.expanduser('ch02/movielens/users.dat')rpath = os.path.expanduser('ch02/movielens/ratings.dat')mpath = os.path.expanduser('ch02/movielens/movies.dat')unames = ['user_id', 'gender', 'age', 'occupation', 'zip']rnames = ['user_id', 'movie_id', 'rating', 'timestamp']mnames = ['movie_id', 'title', 'genres']users = pd.read_csv(upath, sep='::', header=None, names=unames, encoding=encoding)ratings = pd.read_csv(rpath, sep='::', header=None, names=rnames, encoding=encoding)movies = pd.read_csv(mpath, sep='::', header=None, names=mnames, encoding=encoding)
In [6]:
users[:5]
Out[6]:
In [7]:
ratings[:5]
Out[7]:
In [8]:
movies[:5]
Out[8]:
In [9]:
ratings
Out[9]:
In [10]:
data = pd.merge(pd.merge(ratings, users), movies)data
Out[10]:
In [11]:
data.ix[0]
Out[11]:
In [34]:
import sysreload(sys)sys.setdefaultencoding('latin1')mean_ratings = data.pivot_table('rating', index='title',columns='gender', aggfunc='mean')
In [38]:
mean_ratings[:5]
Out[38]:
In [39]:
ratings_by_title = data.groupby('title').size() #对title进行分组
In [40]:
ratings_by_title[:5]
Out[40]:
In [41]:
active_titles = ratings_by_title.index[ratings_by_title >= 250] # 获得评论数据大于250的电影
In [42]:
active_titles[:10]
Out[42]:
In [43]:
mean_ratings = mean_ratings.ix[active_titles]mean_ratings
Out[43]:
In [44]:
mean_ratings = mean_ratings.rename(index={'Seven Samurai (The Magnificent Seven) (Shichinin no samurai) (1954)': 'Seven Samurai (Shichinin no samurai) (1954)'})
In [45]:
top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)# 获取女性观众最喜欢的电影top_female_ratings[:10]
Out[45]:
阅读全文
0 0
- 利用python进入数据分析之MovieLens_1M数据分析
- 利用python进入数据分析之usagov_bitly_data数据分析
- 利用python进入数据分析之全美婴儿姓名分析
- 利用python进入数据分析之数据加载、存储、文件格式
- 利用python进入数据分析之准备篇
- 利用python进入数据分析之Numpy基础知识
- 利用python进入数据分析之pandas的使用
- 利用python进入数据分析之数据聚合与数据分组运算
- 利用python进入数据分析之数据规整化:清理、转换、合并、重塑(一)
- 利用python进入数据分析之数据规整化:清理、转换、合并、重塑(二)
- 利用Python进行数据分析之Numpy
- Python数据分析之利用pandas查询数据
- 利用python分析邮件数据
- 利用python进行数据分析之试水
- 利用 Python 进行数据分析之IPython (一)
- 利用Python进行数据分析(五)之pandas入门
- 利用python进行数据分析之dataframe的常见操作
- 利用Python进行数据分析(六)之pandas基本功能
- Maven讲解之 坐标
- 线程
- Redis整合Spring结合使用缓存实例
- 谷歌浏览器5.5以上版本无法设置编码问题的解决方案
- Hibernate一对多,多对一
- 利用python进入数据分析之MovieLens_1M数据分析
- ubuntu php 开启pdo扩展
- 创建PDF模板,java添加内容、导出下载PDF
- 响应式网站——兰途科技 项目开发问题及解析(首页index.html)
- Support Vecor Machine(支持向量机)
- 线程sleep、wait、yield、join、notify、notifyAll 以及queue
- ubuntu服务器后端环境配置与django开发小结
- 通过ashx动态构造js脚本
- 使用 BibTex 插入参考文献小记