利用Python进行数据分析笔记-第二章
来源:互联网 发布:无间道3什么意思 知乎 编辑:程序博客网 时间:2024/05/29 13:17
json数据的读取:
import json#待读取json文件路径path = 'xxx'#records为json数组records = [json.loads(line) for line in open(path)]
用字典计数(两种方式):
#纯手写的方式def get_counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: counts[x] = 1 return counts#使用defaultdictfrom collections import defaultdictdef get_counts2(sequence): #所有的值均初始化为0 counts = defaultdict(int) for x in sequence: counts[x] += 1 return counts
字典计数后,取前n位(两种方式):
def top_counts(count_dict,n = 10): #count_dict为之前求的计数字典 value_key_pairs = [(count,tz) for tz,count in count_dict.items()] #即将字典转化为元组数组后排序,注意元组的第0项为技术值 value_key_pairs.sort() 取倒数n项 return value_key_pairs[-n:]#第二种方式,使用collections.Counterfrom collections import Counter#time_zone为希望计数和求前n项的数组counts = Counter(time_zone)counts.mostCommon(10)
将数据转化为DataFrame:
利用frame的value_counts()方法轻松对tz进行计数并且返回前n项:
为tz(时区)绘图,替换了缺失值和空字符串:
移除某列为空值的数据:
#a为空,则移除cframe = frame[frame.a.notnull()]
调用np.where对a进行转换:
operating_system = np.where(cframe['a'].str.contains('Windows'),'Windows','Not Windows')
对frame进行分组:
operating_system = np.where(cframe['a'].str.contains('Windows'),'Windows','Not Windows')#cframe通过tz列和operating_system进行分组by_tz_os = cframe.groupby(['tz',operating_system])#分组后的处理agg_counts = by_tz_os.size().unstack().fillna(0)
效果截图:
选取最常出现的时区,并绘制条形图:
反映操作系统用户比例的堆积条形图:
调用pandas.read_table将数据(未以字典形式存储,以一些分隔符分割)转换为DataFrame:
合并users,ratings,movies这三张表,注意pandas可以通过列名识别键:
利用聚合方法pivot_table,按性别计算每部电影的平均得分:
利用groupby()分组,过滤掉评分数据不够250条的电影:
对DataFrame进行排序,sort_index()方法:
为mean_ratings**添加分歧列**,比较男女分歧:
利用std()计算分歧最大的电影(即标准差):
利用pandas.read_csv加载数据到DataFrame:
对frame分组后两种方式聚合数据:
利用pandas.concat()进行数据组装,两点需要注意,1.pandas.concat默认按行组装,2.ignore_index必须为True:
调用pivot_table后绘图:
插入prop列,用于存放指定名字的婴儿数相对于总出生数的比例:
利用np.allclose校验数据:
阅读全文
0 0
- 《利用Python进行数据分析》第二章-学习笔记
- 利用Python进行数据分析笔记-第二章
- 利用python进行数据分析第二章第二个例子
- 利用python进行数据分析 第二章错误
- 利用python进行数据分析笔记
- 利用Python进行数据分析笔记(一
- 《利用Python 进行数据分析》 - 笔记(2)
- 《利用Python 进行数据分析》 - 笔记(3)
- 《利用Python 进行数据分析》 - 笔记(4)
- 《利用Python 进行数据分析》 - 笔记(5)
- 利用Python进行数据分析 笔记1
- 利用Python进行数据分析 学习笔记
- 利用python进行数据分析笔记
- 《利用Python进行数据分析》笔记
- 《利用Python进行数据分析》第三章笔记
- 《利用python进行数据分析》学习笔记第八章
- 利用Python进行数据分析笔记-第三章-ipython
- 利用Python进行数据分析笔记-第四章Numpy
- PowerDesigner导入mysql文件注释丢失问题解决
- 【Python】Python3 多继承的super init()问题
- vue获取当前点击的元素并传值
- 665. Non-decreasing Array
- Spring security登录新增图片验证码
- 利用Python进行数据分析笔记-第二章
- VUE(三)
- <Android/Windows> bat脚本自动开关屏
- 构造方法
- CSS视频 选择器 27-32
- MySql学习总结1
- 设置规范日期格式:汪琪玩Excel第二十招
- 人工智能、机器学习和数据挖掘三者之间的关系
- qt 隐藏tab,还有神奇的tab类似功能。。。