机器学习中的统计学基础知识

来源:互联网 发布:电路设计仿真软件 航空 编辑:程序博客网 时间:2024/05/17 14:18
  • 负偏斜分布

这里写图片描述

人类存活年龄分布

  • 均匀分布

这里写图片描述

没有众数,天气预报

  • 多峰分布

这里写图片描述

有多个众数,该例子为前半部分为女士鞋号,后半部分为男士鞋号

  • 众数指的是x轴,y轴代表具体的频率

这里写图片描述

  • 众数不受总体数据影响,而平均值又会因为总体影响过大导致被平均,所以就发明了中位数
  • 中位数在处理偏斜分布时通常能很好的反映出趋势

这里写图片描述

对于上图的正偏斜分布来说,众数<中位数<均值

这里写图片描述

对于上图的正态分布来说,众数=中位数=均值

  • 统计学家在做统计的时候,通常会砍掉已经排序好的前25%的值,和后25%的值

  • Q1是第一个四分位数,Q3是第三个四分位数,IQR=Q3Q1得到的值域通常就是统计学家要用的部分数据

  • 统计学中计算是否为异常值的公式为

    Outlier<Q11.5IQROutlier<Q3+1.5IQR

这里写图片描述

  • 箱线图

这里写图片描述

这里写图片描述

注意:上图中最下面的点表示异常值

  • IQR也存在一定问题,对于不同的分布IQR可能相同,所以IQR不能考虑分布特性

这里写图片描述

  • 方差和标准差的图像解释

这里写图片描述

  • 贝塞尔校正

当做数据抽样的时候,抽出来的数据量由于小于总体数据量,所以他的方差和标准差总是小于总体数据量的方差和标准差,于是做了贝塞尔校正,将原来的标准差公式 S=Σ(xix¯)2n 变成S=Σ(xix¯)2n1 ,也就是样本标准差,主要目的是用来估算总体标准差的