数据分析里面的一些常用指标的特点(最大、最小、平均、中位数、....)

来源:互联网 发布:粉底液 mac水漾 编辑:程序博客网 时间:2024/06/09 14:26
处理空值的技巧
空值处理的第一种思路是“用最接近的数据来替换它”。这并不是意味着拿它相邻的单元格来替换,而是你需要寻找除了空的这个单元格,哪一行数据在其他列上的内容与存在空值的这行数据是最接近的,然后用该行的数据进行替换。这种方式较为严谨,但也比较费事。
第二种思路是针对数值型的数据,若出现空值,我们可以用该列数值型数据的平均值进行替换。如果条件允许,我建议采用众数进行替换,即该列数据当中出现次数最多的那个数字。若不能寻找出众数,就用中位数。算术平均数是最不理想的一种选择。
异常值与异常字段的处理
拿到数据集,数据源检查通过且空值做了预处理后,对数据集启动“筛选”功能,点开每列的筛选项看一看,往往你就能发现那些异常数据,比如数值特别夸张,文本特别长,NULL值,不匹配的数据类型等等


要认知一个数据序列的分布如何,首先我们要计算最大值、最小值、中位数、算术平均数、75%分位数和25%分位数。
描述统计分析”的过程,就是让你快速地从一堆数据中抽象出信息的过程
当需要描述某个群体的信息时,由群里内的多个个体所归纳而出的信息,其合理性要高于群体中单个个体的信息。

平均数

反映数据大小的一般水平

中位数
顾名思义,中位数就是指排在中间位置的那个数字。做中位数计算时,我们要先把需要计算平均数的所有数值排序,然后取出排序处在中间的那个数字,作为这个数据序列的平均数。若数据有偶数个,比如10个,我们找不到排序在中间的数字,那么就取排在中间两位的数字,比如第5和第6的两个数字,计算这两个数字的算术平均数,来形成中位数。
中位数能够避免数据的平均数受到异常值的影响。
举个最简单的例子,有5个人,他们的月收入分别是(6K,6K,8K,10K,100K),100K这个人的数字其实是统计错了,多加了一个0。如果计算算术平均数,受统计错误的影响,那这5个人的月均收入高达26K,这5个人的群体可以定义为高级白领群。
实际上,有4个人离这个数字非常远,他们都是屌丝。如果我们采用中位数计算,那么这个群体的月均收入是8K,就避免了100K这个特殊值带来的影响,使得数据更为准确。
众数
众数,听着这个名字其实你也能想到含义了。它是指将序列中出现次数最多的数字,作为该序列的平均数。众数的应用频率不是很高,但并不代表它不重要。在许多情况下,当你觉得山穷水尽时,往往众数的计算方式能给你以帮助。
众数用在数值型的数据中时,对数字的精度会有一定的降低,毕竟你是要找出出现频率最高的数。如果序列中的数值精度都很高,那你未必找得到众数。但众数真正的价值,我觉得并不是用在数值型的数据中,而是用在类别型的数据中。


加权算术平均数

为了让平均水平的计算方式能涵盖所有的业务场景,数据集中的每个数字对于计算平均水平的重要性是不同的。

标准差数值的大小,衡量了数据序列的波动情况,即稳定性。
般来说,我们都会先观察数据的平均水平,在平均水平的信息提取完后,才会关注数据的稳定性。对于数据的稳定性,
建议大家一定要和“风险”两个词联系起来。以我肤浅的知识积累,我认为任何风险衡量的模型,其本质都离不开衡量波动性,即方差与标准差。
一个数据的波动性越大,说明它所涵盖的信息量越大,信息量越大,不可知的因素就一定会更多,因此风险会更大。


将最大值减去最小值所算得的数字称为“全距”。全距部分反映了数据点的分散情况。为什么说是部分反映呢?若一个数据序列的最大值特别大,最小值特别小,而其他数值却非常接近,那么全距就不能真实反映这个数据序列的离散情况了。那么这个时候需要百分位数衡量。
所谓的百分位数,即将数据升序排列后,具体数据值的序号除以数据值的总数,所得出的百分比,即该数据值所对应的百分位数。比如,有一个数据序列(1,2,2,3,4,4,5,6,8,10),按升序排列后,数字6排在这个序列的第8位,那么这个数据序列的80%分位数就是6。
我们最为常用的是25%分位数和75%分位数,称为四分卫数。而两个四分位数的差(四分卫差),与全距一起使用,就能比较准确的判断数据序列的离散情况。中位数即50%分位数。你可以用PERCENTILE()函数计算百分位数
数据序列的离散度与波动性是存在关系的,往往序列的离散度高,标准差也会更大。另外,查看算术平均数与中位数的差距,也具有现实意义。若一个数据序列,数据点均匀的分布在最大值到最小值之间,那么算术平均数会几乎等于中位数;

若一个数据序列,数据点的分布不均匀,那么算术平均数与中位数的偏差就会比较大。往往算术平均数与中位数差距大的数据序列,我们需要格外用心地去分析。

理解相关系数的含义,相关系数衡量的是变动方向和变动的幅度,与两个数据序列的单位无关。

  • 利用相关系数来减少统计指标
    在针对某项业务设计指标体系时,我们经常会罗列出很多指标。但过多的指标会给后续的报告制作、信息解读和产品开发带来巨大的成本。那么相关系数就是删减指标的一种方式。如果发现某两个指标间的相关系数非常高,一般大于0.8,那么我们就两者择其一。


  • 利用相关系数来挑选回归建模的变量
    在建立多元回归模型前,我们需要解决把那些数据放入模型作为自变量。最常规的方式就是先计算所有字段与因变量的相关系数,把相关系数较高的放入模型。然后计算自变量间的相关系数。若自变量间的相关系数高,说明存在多重共线性,需要进行删减。



频率分布图的应用其实非常广泛,最为典型的一种应用是确定某种阀值。在阀值的确定这种分析场景中,我们经常会用到一种称为“肘”的方法。使用该方法的前提是在频率分布图中画出累加频率曲线。
什么是累加频率曲线呢?如下图,累加频率曲线就是从左到右,将每个箱里面的数值个数累加,累加值除以数据序列的总数字个数,得出的百分比。
以上的总结来自以下的链接
系列经验分享 :快速认知数据的详细步骤(1):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886293&idx=2&sn=4866f065ab0d069cdc3b8fb21893fc00&chksm=bd48eb368a3f6220c98b3ca6e6d54ffcf3eddc98256ae790b264d8f0b5942ad62481109ab629&scene=21#wechat_redirect
系列经验分享 :快速认知数据的详细步骤(2):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886299&idx=2&sn=98c1b5762e9dd57ebf7f103555ccb197&chksm=bd48eb388a3f622e442ccbe050a03bdc46599ecdad0cfe342c24ca0fd3bd1f2795c093f7cdb5&scene=21#wechat_redirect
系列经验分享 :快速认知数据的详细步骤(3):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886301&idx=2&sn=8229987a58f1c282dbc187626c23c3ae&chksm=bd48eb3e8a3f622815f018e91cd19f6f83c9fd40d68748a4dc2e8522caa65fda3d110e5add36&scene=21#wechat_redirect
系列经验分享 :快速认知数据的详细步骤(5)数据透视(结合python):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886314&idx=3&sn=ac62e286ddd62aa2686b2cae44932584&chksm=bd48eb098a3f621f73940f586a8ae4508f833270d7c23ced883829bd0b7970ae429752d3316d&mpshare=1&scene=23&srcid=0105KO5LpJs9RvlxslPvsCnY#rd
另附资源:
箱线图的画法(有道简报):http://www.officedoyen.com/a/exceltubiao/zuhetubiao/xianzhutu/2015/0809/11149.html
频率直方图的画法(有道简报):http://blog.csdn.net/zhanghongju/article/details/18445591
累计频率图:https://www.zhihu.com/question/26034022/answer/31888935
0 0