机器学习(十二)——机器学习中的矩阵方法(2)特征值和奇异值
来源:互联网 发布:皇家骑士团java 编辑:程序博客网 时间:2024/05/16 15:16
http://antkillerfarm.github.io/
QR分解(续)
令
即:
这个过程又被称为Gram–Schmidt正交化过程。
因此:
矩阵的特征值和特征向量
设A是一个n阶方阵,
上面这个描述也可以记作:
这个公式本身通常用于:已知特征值,求解对应的特征向量。
其中,
特征值和特征向量在有的书上也被称为本征值和本征向量。
特征值和特征向量的特性包括:
1.特征向量属于特定的特征值,离开特征值讨论特征向量是没有意义的。不同特征值对应的特征向量不会相等,但特征向量不能由特征值唯一确定。
2.在复数范围内,n阶矩阵A有n个特征值。在这些特征值中,模最大的那个特征值即主特征值(对于实数阵即绝对值最大的特征值),主特征值对应的特征向量称为主特征向量。
更多内容参见:
http://course.tjau.edu.cn/xianxingdaishu/jiao/5.htm
QR算法
对矩阵A进行QR分解可得:
因为Q是正交阵(
证明:
这里的证明,用到了行列式的如下性质:
因为
由此产生如下迭代算法:
Repeat until convergence {
1.Ak=QkRk (QR分解)
2.Ak+1=QTkAkQk=Q−1kQkRkQk=RkQk
}
这个算法的收敛性证明比较复杂,这里只给出结论:
其中,
QR算法于1961年,由John G.F. Francis和Vera Nikolaevna Kublanovskaya发现。
注:John G.F. Francis,1934年生,英国计算机科学家,剑桥大学肄业生。
2000年,QR算法被IEEE计算机学会评为20世纪的top 10算法之一。然而直到那时,计算机界的数学家们竟然都没有见过Francis本尊,连这位大神是活着还是死了都不知道,仿佛他在发表完这篇惊世之作后就消失了一般。
2007年,学界的两位大牛:Gene Howard Golub(SVD算法发明人之一,后文会提到。)和Frank Detlev Uhlig(1972年获加州理工学院博士,Auburn University数学系教授),经过不懈努力和人肉搜索终于联系上了他。
他一点都不知道自己N年前的研究被引用膜拜了无数次,得知自己的QR算法是二十世纪最NB的十大算法还有点小吃惊。这位神秘大牛竟然连TeX和Matlab都不知道。现在这位大牛73岁了,活到老学到老,还在远程教育大学Open University里补修当年没有修到的学位。
2015年,University of Sussex授予他荣誉博士学位。
相关内容参见:
http://www.netlib.org/na-digest-html/07/v07n34.htmlVera Nikolaevna Kublanovskaya,1920~2012,苏联数学家,女。终身供职于苏联科学院列宁格勒斯塔克罗夫数学研究所。52岁才拿到博士学位。
需要指出的是,QR算法可求出矩阵的所有特征值,如果只求某一个特征值的话,还有其他一些更快的算法。详见:
https://en.wikipedia.org/wiki/Eigenvalue_algorithm
矩阵的奇异值
在进一步讨论之前,我们首先介绍一下矩阵特征值的几何意义。
首先,矩阵是对线性变换的表示,确定了定义域空间V与目标空间W的两组基,就可以很自然地得到该线性变换的矩阵表示。
线性空间变换的几何含义如下图所示:
图中的坐标轴,就是线性空间的基。
线性变换主要有三种几何效果:旋转、缩放、投影。
其中,旋转和缩放不改变向量的维数。矩阵特征值运算,实际上就是将向量V旋转缩放到一个正交基W上。因为V和W等维,所以要求矩阵必须是方阵。
正交化过程,代表旋转变换,又被称为等距同构。(旋转变换,可以理解为向量的正向旋转,也可以理解为坐标轴的反向旋转,这里理解为后者,会容易一些。)特征值代表缩放变换的缩放因子。
而对于一般矩阵而言,我们还需要进行投影变换,将n维向量V映射为m维向量W。那么投影变换选择什么矩阵呢?
我们知道,对于复数z,可写成:
其中
类似的,我们定义共轭矩阵
仿照着复数的写法,矩阵M可以表示为:
这里的S表示等距同构。(单位向量相当于给模一个旋转变换,也就是等距同构。)由于
注意:我们刚才是用与复数类比的方式,得到投影变换矩阵
M∗M−−−−−√ 。但是类比不能代替严格的数学证明。幸运的是,上述结论已经被严格证明了。
我们将矩阵
参见:
https://www.zhihu.com/question/22237507/answer/53804902
http://www.ams.org/samplings/feature-column/fcarc-svd
奇异值分解
奇异值分解(Singular value decomposition,SVD)定理:
设
其中,
当M为复矩阵时,将U、V改为酉矩阵(unitary matrix)即可。(吐槽一下,酉矩阵这个翻译真的好烂,和天干地支半毛钱关系都没有。)
奇异值分解也可写为另一种形式:
其几何意义如下图所示:
虽然,我们可以通过计算矩阵
参见:
http://www.doc88.com/p-089411326888.html
Gene Howard Golub,1932~2007,美国数学家,斯坦福大学教授。
William Morton Kahan,1933年生,加拿大数学家,多伦多大学博士,UCB教授。图灵奖获得者(1989)。IEEE-754标准(即浮点数标准)的主要制订者,被称为“浮点数之父”。ACM院士。
矩阵的秩
一个矩阵A的列(行)秩是A的线性独立的列(行)的极大数。
下面不加证明的给出矩阵的秩的性质:
1.矩阵的行秩等于列秩,因此可统称为矩阵的秩。
2.秩是n的
3.设
4.设A为
5.线性方程组
参见:
http://wenku.baidu.com/view/9ce143eb81c758f5f61f6730.html
奇异矩阵
对应的行列式等于0的方阵,被称为奇异矩阵(singular matrix)。
奇异矩阵和线性相关、秩等概念密切相关。
下面不加证明的给出奇异矩阵的性质:
1.如果A为非奇异矩阵
2.如果A为奇异矩阵,则AX=0有无穷解,AX=b有无穷解或者无解。如果A为非奇异矩阵,则AX=0有且只有唯一零解,AX=b有唯一解。
对于A不是方阵的情况,一般使用
向量的范数
范数(norm,也叫模)的定义比较抽象,这里我们使用闵可夫斯基距离,进行一个示意性的介绍。
Minkowski distance的定义:
显然,当
这里的
- 机器学习(十二)——机器学习中的矩阵方法(2)特征值和奇异值
- 机器学习之奇异值分解之特征值(SVD)
- 机器学习中的数学(4)——特征值与奇异值分解及其应用
- 【机器学习系列】特征值、奇异值以及奇异值分解
- 机器学习中的数学——强大的矩阵奇异值分解(SVD)及其应用
- 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 【zz】
- 机器学习算法(降维)—SVD奇异值分解
- [机器学习]矩阵的奇异值与特征值有什么相似之处与区别之处?
- 机器学习(十二)
- 机器学习中的数学:奇异值分解
- 机器学习(十一)——机器学习中的矩阵方法(1)LU分解、QR分解
- 机器学习中的数学(3)——协方差矩阵和散布(散度)矩阵
- 机器学习实战学习笔记4——奇异值分解(SVD)
- 【机器学习详解】矩阵奇异值分解(SVD)及其应用
- 机器学习 矩阵奇异值分解(SVD)及其应用
- leftnoteasy:机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
- 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
- 机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
- 注册表编辑器里面的run(Run键主要用于开机自动加载程)
- Hbase学习笔记
- WEB app流行架构
- 服务端技术进阶(三)从架构到监控报警,支付系统的设计如何步步为营
- 使用Ubuntu16下载编译Android6.0源码
- 机器学习(十二)——机器学习中的矩阵方法(2)特征值和奇异值
- TensorFlow学习(五):数学与概率
- 注册表十大启动项
- TensorFlow学习(六):形状相关操作
- Java数据结构和算法-简单排序(4-对象排序及几种排序的比较)
- SQL Server数据库技术WEEK2-1
- Webstorm/Phpstorm设置FTP
- WINDOWS下双网卡做负载均衡(转载内容)
- Troubleshooting Device and Driver Installations