数据分析里面的一些常用指标的特点（最大、最小、平均、中位数、....）

来源：互联网发布：粉底液 mac水漾编辑：程序博客网时间：2024/06/09 14:26

处理空值的技巧
空值处理的第一种思路是“用最接近的数据来替换它”。这并不是意味着拿它相邻的单元格来替换，而是你需要寻找除了空的这个单元格，哪一行数据在其他列上的内容与存在空值的这行数据是最接近的，然后用该行的数据进行替换。这种方式较为严谨，但也比较费事。
第二种思路是针对数值型的数据，若出现空值，我们可以用该列数值型数据的平均值进行替换。如果条件允许，我建议采用众数进行替换，即该列数据当中出现次数最多的那个数字。若不能寻找出众数，就用中位数。算术平均数是最不理想的一种选择。
异常值与异常字段的处理
拿到数据集，数据源检查通过且空值做了预处理后，对数据集启动“筛选”功能，点开每列的筛选项看一看，往往你就能发现那些异常数据，比如数值特别夸张，文本特别长，NULL值，不匹配的数据类型等等

要认知一个数据序列的分布如何，首先我们要计算最大值、最小值、中位数、算术平均数、７５％分位数和２５％分位数。
描述统计分析”的过程，就是让你快速地从一堆数据中抽象出信息的过程
当需要描述某个群体的信息时，由群里内的多个个体所归纳而出的信息，其合理性要高于群体中单个个体的信息。

平均数

反映数据大小的一般水平

中位数
顾名思义，中位数就是指排在中间位置的那个数字。做中位数计算时，我们要先把需要计算平均数的所有数值排序，然后取出排序处在中间的那个数字，作为这个数据序列的平均数。若数据有偶数个，比如10个，我们找不到排序在中间的数字，那么就取排在中间两位的数字，比如第5和第6的两个数字，计算这两个数字的算术平均数，来形成中位数。
中位数能够避免数据的平均数受到异常值的影响。
举个最简单的例子，有5个人，他们的月收入分别是（6K,6K,8K,10K,100K），100K这个人的数字其实是统计错了，多加了一个0。如果计算算术平均数，受统计错误的影响，那这5个人的月均收入高达26K，这5个人的群体可以定义为高级白领群。
实际上，有4个人离这个数字非常远，他们都是屌丝。如果我们采用中位数计算，那么这个群体的月均收入是8K，就避免了100K这个特殊值带来的影响，使得数据更为准确。
众数
众数，听着这个名字其实你也能想到含义了。它是指将序列中出现次数最多的数字，作为该序列的平均数。众数的应用频率不是很高，但并不代表它不重要。在许多情况下，当你觉得山穷水尽时，往往众数的计算方式能给你以帮助。
众数用在数值型的数据中时，对数字的精度会有一定的降低，毕竟你是要找出出现频率最高的数。如果序列中的数值精度都很高，那你未必找得到众数。但众数真正的价值，我觉得并不是用在数值型的数据中，而是用在类别型的数据中。

加权算术平均数

为了让平均水平的计算方式能涵盖所有的业务场景，数据集中的每个数字对于计算平均水平的重要性是不同的。

标准差数值的大小，衡量了数据序列的波动情况，即稳定性。
般来说，我们都会先观察数据的平均水平，在平均水平的信息提取完后，才会关注数据的稳定性。对于数据的稳定性，
建议大家一定要和“风险”两个词联系起来。以我肤浅的知识积累，我认为任何风险衡量的模型，其本质都离不开衡量波动性，即方差与标准差。
一个数据的波动性越大，说明它所涵盖的信息量越大，信息量越大，不可知的因素就一定会更多，因此风险会更大。

将最大值减去最小值所算得的数字称为“全距”。全距部分反映了数据点的分散情况。为什么说是部分反映呢？若一个数据序列的最大值特别大，最小值特别小，而其他数值却非常接近，那么全距就不能真实反映这个数据序列的离散情况了。那么这个时候需要百分位数衡量。
所谓的百分位数，即将数据升序排列后，具体数据值的序号除以数据值的总数，所得出的百分比，即该数据值所对应的百分位数。比如，有一个数据序列（1,2,2,3,4,4,5,6,8,10），按升序排列后，数字6排在这个序列的第8位，那么这个数据序列的80%分位数就是6。
我们最为常用的是25%分位数和75%分位数，称为四分卫数。而两个四分位数的差（四分卫差），与全距一起使用，就能比较准确的判断数据序列的离散情况。中位数即50%分位数。你可以用PERCENTILE()函数计算百分位数
数据序列的离散度与波动性是存在关系的，往往序列的离散度高，标准差也会更大。另外，查看算术平均数与中位数的差距，也具有现实意义。若一个数据序列，数据点均匀的分布在最大值到最小值之间，那么算术平均数会几乎等于中位数；

若一个数据序列，数据点的分布不均匀，那么算术平均数与中位数的偏差就会比较大。往往算术平均数与中位数差距大的数据序列，我们需要格外用心地去分析。

理解相关系数的含义，相关系数衡量的是变动方向和变动的幅度，与两个数据序列的单位无关。

利用相关系数来减少统计指标
在针对某项业务设计指标体系时，我们经常会罗列出很多指标。但过多的指标会给后续的报告制作、信息解读和产品开发带来巨大的成本。那么相关系数就是删减指标的一种方式。如果发现某两个指标间的相关系数非常高，一般大于0.8，那么我们就两者择其一。
利用相关系数来挑选回归建模的变量
在建立多元回归模型前，我们需要解决把那些数据放入模型作为自变量。最常规的方式就是先计算所有字段与因变量的相关系数，把相关系数较高的放入模型。然后计算自变量间的相关系数。若自变量间的相关系数高，说明存在多重共线性，需要进行删减。

频率分布图的应用其实非常广泛，最为典型的一种应用是确定某种阀值。在阀值的确定这种分析场景中，我们经常会用到一种称为“肘”的方法。使用该方法的前提是在频率分布图中画出累加频率曲线。
什么是累加频率曲线呢？如下图，累加频率曲线就是从左到右，将每个箱里面的数值个数累加，累加值除以数据序列的总数字个数，得出的百分比。
以上的总结来自以下的链接
系列经验分享：快速认知数据的详细步骤（1）：http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886293&idx=2&sn=4866f065ab0d069cdc3b8fb21893fc00&chksm=bd48eb368a3f6220c98b3ca6e6d54ffcf3eddc98256ae790b264d8f0b5942ad62481109ab629&scene=21#wechat_redirect
系列经验分享：快速认知数据的详细步骤（2）：http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886299&idx=2&sn=98c1b5762e9dd57ebf7f103555ccb197&chksm=bd48eb388a3f622e442ccbe050a03bdc46599ecdad0cfe342c24ca0fd3bd1f2795c093f7cdb5&scene=21#wechat_redirect
系列经验分享：快速认知数据的详细步骤（3）：http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886301&idx=2&sn=8229987a58f1c282dbc187626c23c3ae&chksm=bd48eb3e8a3f622815f018e91cd19f6f83c9fd40d68748a4dc2e8522caa65fda3d110e5add36&scene=21#wechat_redirect
系列经验分享：快速认知数据的详细步骤（5）数据透视(结合python):http://mp.weixin.qq.com/s?__biz=MjM5MjAxMDM4MA==&mid=2651886314&idx=3&sn=ac62e286ddd62aa2686b2cae44932584&chksm=bd48eb098a3f621f73940f586a8ae4508f833270d7c23ced883829bd0b7970ae429752d3316d&mpshare=1&scene=23&srcid=0105KO5LpJs9RvlxslPvsCnY#rd
另附资源：
箱线图的画法（有道简报）：http://www.officedoyen.com/a/exceltubiao/zuhetubiao/xianzhutu/2015/0809/11149.html
频率直方图的画法（有道简报）:http://blog.csdn.net/zhanghongju/article/details/18445591
累计频率图：https://www.zhihu.com/question/26034022/answer/31888935

0 0