(三)描述统计学:数值方法
来源:互联网 发布:网络机顶盒无线连接 编辑:程序博客网 时间:2024/05/16 15:03
当数据中有异常值时,使用中位数作为中心位置的度量比平均数更合适。
有时,在有异常值的情况下,我们使用另外一种度量方法——调整平均数(trimmed mean)。 删除数据中最大的和最小的一些数据,然后对剩下的数据求平均值,得到的就是调整平均数。
总体方差与样本方差的区别值得一提,首先给出两者的定义
样本方差的期望等于总体方差,故样本方差是总体方差的无偏估计(证明如下,对证明不感兴趣的可直接跳过)
直方图对数据的分布形态提供了很好的图形描述,而偏度则从数值角度对数据的分布进行了描述
偏度计算公式如下
偏态可分为左偏(偏度为负值)、对称(偏度为为0)、右偏(偏度为正值)
对于一个对称分布,平均数和中位数是相等的,对左偏而言,平均数比中位数要小,对右偏而言,平均数比中位数要大。
z-分数(z-score)
z-分数可以用于解释数据x距离平均值的标准差的个数
切比雪夫定理——能使我们指出与平均数的距离在某个特定倍数的标准差之内数据项所占比例 (可以适用于任意数据集而不论其数据分布的形状)
【与平均数的距离在z个标准差之内的数据项所占比例至少为,式中z是大于1的任意实数】
与切比雪夫定理相比,如果数据集具有峰形或钟形分布,则可以运用经验法则(empirical)来确定与平均数的距离在某个特定倍数的标准差之内数据项所占比例(更为精确)
------------------------------------------------------------------------------
经验法则:
- 大约68%的数据项与平均数的距离在1个标准差之内
- 大约95%的数据项与平均数的距离在2个标准差之内
- 几乎所有的数据项与平均数的距离在3个标准差之内
异常值(outlier)
一般将z-分数小于-3或大于3的任何数值都视为异常值
协方差(covariance) ——描述两变量间线性关系的度量
样本协方差:
总体协方差:
因为协方差依赖于两个变量的计量单位,为了避免这一因素的影响我们引入相关系数这一概念
相关系数为协方差除以两个变量标准差的乘积
- (三)描述统计学:数值方法
- 应用统计学与R语言实现学习笔记(三)——描述性统计
- 描述统计2:数值方法
- 推断统计学与描述统计学
- 描述统计学基础
- (二)描述统计学:表格法和图形法
- 统计学与工具实现(三)
- 随手笔记:描述统计学入门
- 用python学概率与统计(第三章)描述性统计:数值方法
- 图形和数值的数据集描述方法
- 教你如何区分描述统计学与推断统计学
- 教你如何区分描述统计学与推断统计学
- 变量数值交换的三种方法
- 统计学学习笔记——(1)统计学研究方法概论
- 一点一点重学统计学(三)——假设检验
- 统计学三大相关系数之皮尔森(pearson)相关系数
- 统计学之三大相关性系数(pearson、spearman、kendall)
- 统计学(三):几种常见的概率分布
- Android中TabHost动态修改图标或者动态改变标题
- 多项式运算
- android开发之调用手机的摄像头使用MediaRecorder录像并播放
- 我遇到的蛋疼的JS兼容问题
- Java加密技术——数字证书
- (三)描述统计学:数值方法
- 公开的函数把函数作为参数
- FrameLayout中setlayoutparams在 2.3系统 无效的问题.
- 广义线性模型3
- 培养团队核心技能的一些方法
- 怎么将android单个模块源代码导入到eclipse里编译
- POJ2481 Cows
- poj 1573 Robot Motion——模拟(读题要认真)
- nyoj 27 水池数目【递归】