【番外篇】关于多元线性回归以及主成成分分析的一点思考

来源:互联网 发布:查看php编译参数 编辑:程序博客网 时间:2024/06/06 17:29

前两天在研究期权组合问题,突然觉得对统计有了一点新的理解,所以今天写一点关于多元线性方面的东西,以待后用。

1. 多元线性回归的基本形式:

一个因变量,比如说某个地区的气温,被认为是由其他几个自变量,比如海拔、阳光亮度、湿度等等有关。我这里把这几个自变量理解为对应的instrument。假设有n次观测,那么得到的数据就是:


这里可以理解为在每次观测中,我们有Y这个Portfolio以及各个instrument对应的值。现在,我们就要找出这个Portfolio到底由对应的多少个instrument组成。而且,由于观测是随机的,因此成分是固定的!

这里,要考虑两种情况:

1)n<k(自变量的数量)

举例来说,假设n=2,那么这个问题我们可以写成求下面方程组中的a,b,c


根据线性代数的知识,我们知道a,b,c的解不唯一。instrument太多,以至于这些instrument赋予不同的权重都能得到目标结果Y。(当然,这里的都假设矩阵的性质良好)

2)n>k

再次使用线性代数的知识,a,b,c要么唯一(共线性),要么无法解出,那怎么办呢?我们引入一个残差e的概念。

那么这时候上面的方程组就变成了:

为了得到a,b,c的唯一解,所以我们引入了最小二乘法的思想,即最小化e的平方和!

上式对B(参数)求导并且令为0,则我们可以得到唯一的B(即:唯一的a,b,c解)

因为这个解是使用最小二乘法为目标条件才得到的,而这里的最小二乘法中有随机因素e,因此B的解只能算是根据现有观测的估计。因此,我们要知道B的参数的范围,这就有了参数的标准差。

更进一步,我们知道这些参数估计都服从T分布,自由度是n-k。自由度可以理解为,如果再增加n-k个instrument,那么根据得到的方程组就能完全确定的得到B的值,不需要最小二乘法。

 

2.主成成分分析思想:

通过上面的分析,我们知道其实我们就是在用给定的instrument的组成来模拟Y这个Portfolio。那么,能不能用其他的instrument来代替原有的,而后同样得到Y呢?答案是肯定的。

这个有点先是正交分解,像上例中说的,如果有3个instrument,那么我就可以在三个维度找到替换的instrument,而这三个新的instrument可以通过线性组合完美地得到原来的instrument。这个其实就是主成成分分析在做的事情之一。注意,这新的instrument彼此没有线性关系(不同维度)!

正交分解为:


可以证明:  的协方差矩阵就是 ,他们是线性无关的!



0 0
原创粉丝点击