协方差——(不同维度的关联)
来源:互联网 发布:中国平安报表数据2015 编辑:程序博客网 时间:2024/04/29 18:48
一、统计学的基本概念
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:
均值:
标准差:
方差:
均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。
以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
二、为什么需要协方差
标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:
来度量各个维度偏离其均值的程度,协方差可以这样来定义:
协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),也就是说一个人越猥琐越受女孩欢迎。如果结果为负值, 就说明两者是负相关,越猥琐女孩子越讨厌。如果为0,则两者之间没有关系,猥琐不猥琐和女孩子喜不喜欢之间没有关联,就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质,如:
三、协方差矩阵
前面提到的猥琐和受欢迎的问题是典型的二维问题,而协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算个协方差,那自然而然我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
这个定义还是很容易理解的,我们可以举一个三维的例子,假设数据集有三个维度,则协方差矩阵为:
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。
- 协方差——(不同维度的关联)
- OBIEE提示-不同维度关联
- 笔试题———求二位数组(NXN)不同维度之和的最大值
- 维度模型数据仓库(二) —— 维度模型基础
- 维度模型数据仓库(八) —— 维度子集
- 维度模型数据仓库(九) —— 角色扮演维度
- 维度模型数据仓库(十一) —— 维度层次
- 维度模型数据仓库(十三) —— 退化维度
- 维度模型数据仓库(十四) —— 杂项维度
- 维度模型数据仓库(十九) —— 维度合并
- 维度模型数据仓库(二十一) —— 分段维度
- 样本不同特征构成的协方差矩阵
- 在不同的维度做防御
- 维度模型数据仓库(十八) —— 迟到的事实
- 事实表关联非最低粒度的维度的情况
- 2 关于数据仓库维度数据处理的方法探究系列——无变化维度处理
- HAWQ取代传统数仓实践(七)——维度表技术之维度子集
- HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度
- 教程:安卓adb命令大全(Win下.持续更新)。
- POJ 1050(最大子矩阵和)
- 表单的csrf
- 什么时候需要使用eval转换json
- 教程:MediaWiki修改右侧导航栏.修改全局css.js以及增加编辑页面格式模板选择功能.
- 协方差——(不同维度的关联)
- GlusterFS Dispersed Volume(纠错卷)总结
- HDU 3635 Dragon Balls
- 教程:WAMP开启vhosts多站点多域名功能.
- UiAutomator 使用 Jenkins 实现持续集成-2
- Kali Linux 秘籍 翻译完成!
- JAVA中类型转换的有三种方法
- java基础——多线程——线程池
- 【NOIP2014模拟8.15】城市街区