箱线图(box & whisker plot)—数据准备

来源:互联网 发布:智能数据营销 编辑:程序博客网 时间:2024/06/05 18:51

参考资料

参考1:http://blog.csdn.net/zenghaihong/article/details/53291372

参考2:http://www.jianshu.com/p/b2f70f867a4a

例题

箱线图是一种用作显示一组数据分散情况资料的统计图

给定集合样本{53 53 61 61 63 65 67 67 69 69 69 70 70 71 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 94 95 100}可绘制箱线图


用python绘制箱线图需要学习matplotlib、numpy和scipy等诸多内容,本课程仅讲授箱线图基本数据的Python求解


下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字

上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第25%位置的数字

异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
上边缘:除异常点以外的数据中的最大值

下边缘:除异常点以外的数据中的最小值

IQR四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别(即Q1~Q3 的差距)。

代码

#首先导入基本的绘图包import matplotlib.pyplot as pltimport numpy as npimport pandas as pd#添加成绩表plt.style.use("ggplot")plt.rcParams['axes.unicode_minus'] = Falseplt.rcParams['font.sans-serif']=['SimHei'] #新建一个空的DataFramedf=pd.DataFrame()#添加成绩单,最后显示成绩单表格df["成绩分布"]=[40,53,53,61,63,65,67,67,69,69,69,70,70,71,74,75,75,76,77,78,79,80,81,81,81,81,82,84,85,86,87,87,87,88,89,90,91,91,94,95,100]#用matplotlib来画出箱型图#plt.boxplot(x=df.values,labels=df.columns,whis=1.5)#plt.show()#用pandas自带的画图工具更快df.boxplot()plt.show()


原创粉丝点击