Principal component analysis
来源:互联网 发布:网络女主播六间房 编辑:程序博客网 时间:2024/05/21 09:54
先整理下思路:
前两天学了下聚类分析,主要是系统聚类法和动态聚类法
系统聚类法主要是通过最近距离实现的,R函数hclust()函数,中间还有画谱系图以及确定聚类(rect.hclust)的情况
动态聚类法,之所以称为动态,因为我们是先初步分类,再根据某种最优原则不断修改迭代各个类别;R函数kmeans()函数
下面接着薛毅老师的书《统计建模与R软件》[书有点了老,但是里面的理论思想还是值得看]
主成分分析
基本介绍:
主成分分析是将多指标化为少数几个综合指标的一种统计分析方法,由pearson提出。
主成分分析是一种通过降维技术把多个变量化成少数几个主成分的方法.(判别分析应该也算一种降维方法吧,找到判别函数,将原样本映射到低维空间)
基本思想:
根据样本矩阵的特征值,最大的特征值为第一主成分,第二大特征值为第二主成分,以此类推。主成分个数m的依据是使累积方差贡献率达到80%~90%
相关的R函数:
(1)princomp()函数,格式如下:
princomp(formula,data,subset,na.action)
princomp(x,cor=FALSE,scores=TRUE,covmat=NULL,subset=rep(TRUE,nrow(as.matrix(x))),….)
说明:formula是没有响应变量的公式,data是数据框
x是用作主成分分析的数据框,以数值矩阵或数据框的形式给出;
cor(logical):当cor=T时,表示用样本的相关矩阵做主成分分析,当 cor=FALSE(默认值)表示用样本的协方差阵作相关分析;
(2)summary()函数提取主成分的信息
summary(object,loadings=FALSE,cutoff=0.1,…)
说明:object是由princomp() 得到的对象,loadings(logical):TRUE表示显示loadings的内容,FALSE表示不显示.
(3)loadings()函数是显示主成分分析或因子分析中loadings的内容
loadings(x) #x是由函数princomp()得到的对象
(4)predict()函数是预测主成分的值
predict(object,newdata,…)
object是由princomp()得到的对象,newdata是由预测值构成的数据框,当newdata为默认值时,预测已有数据的主成分.
(5)screeplot()函数,是画出主成分的碎石图,其使用格式为:
screeplot(x,npcs=min(10,length(x$sdev),type=c(“barplot”,”lines”),main=deparse(substitute(x)),…)
说明:x是由princomp()得到的对象,npcs是画出的主成分的个数,type是描述画出的碎石图的类型。
示例:
随机抽取某年级30名学生,测量其身高、体重、胸围和坐高,对这4项指标数据作主成分分析.
R #用数据框形式输入数据 student<-data.frame( X1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139, 140, 161, 158, 140, 137, 152, 149, 145, 160, 156, 151, 147, 157, 147, 157, 151, 144, 141, 139, 148), X2=c(41, 34, 49, 36, 45, 31, 43, 43, 42, 31, 29, 47, 49, 33, 31, 35, 47, 35, 47, 44, 42, 38, 39, 30, 48, 36, 36, 30, 32, 38), X3=c(72, 71, 77, 67, 80, 66, 76, 77, 77, 68, 64, 78, 78, 67, 66, 73, 82, 70, 74, 78, 73, 73, 68, 65, 80, 74, 68, 67, 68, 70), X4=c(78, 76, 86, 79, 86, 76, 83, 79, 80, 74, 74, 84, 83, 77, 73, 79, 79, 77, 87, 85, 82, 78, 80, 75, 88, 80, 76, 76, 73, 78))###做主成分分析student.pr <- princomp(student,cor=T)summary(student.pr,loadings=TRUE)结果: Importance of components: Comp.1 Comp.2 Comp.3 Comp.4Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844Proportion of Variance 0.8852745 0.07834579 0.01985224 0.01652747Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000Loadings: Comp.1 Comp.2 Comp.3 Comp.4X1 0.497 0.543 -0.450 0.506X2 0.515 -0.210 -0.462 -0.691X3 0.481 -0.725 0.175 0.461X4 0.507 0.368 0.744 -0.232
结果显示了主成分的标准差(相应特征值的开方)、方差的贡献率和方差的累积贡献率;
语句student.pr <- princomp(student,cor=T)还可以写成:
student.pr <- princomp(~x1+x2+x3+x4,data=student,cor=TRUE),两者是等价的。
summary()函数的参数loadings=TRUE,列出了荷载的内容,它实际上就是主成分对应于原始变量
由于结果中前两个主成分的累积贡献率已经达到96%,另外两个主成分可以舍去,达到降维的目的.可以分析得到,第一主成分为大小因子,第二主成分为体型因子。
“`
####各个样本的主成分的值
predict(student.pr)
#####主成分的碎石图
screeplot(student.pr,type=”lines”)
*向量不能看作是只有一列或一行的矩阵,因为矩阵有一种特殊的属性,即行数和列数
- Principal Component Analysis
- Principal component analysis
- Principal Component Analysis
- Principal Component Analysis
- Principal component analysis
- Principal Component Analysis
- Principal Component Analysis(PCA)
- PCA-principal component analysis
- Principal Component Analysis(PCA)
- PLA(principal component analysis ) 参考资料
- Principal component analysis in Matlab
- PCA(principal component analysis)
- PCA(Principal Component Analysis)
- General Remote Sensing Principal Component Analysis/ Transformations
- 主成分分析(Principal Component Analysis)
- 矩阵应用:PCA-Principal Component Analysis
- Study notes for Principal Component Analysis
- Coursera Machine Learning 8.2: Principal Component Analysis
- 对于UI控件学习的总结(一):懒加载
- LeetCode:Contains Duplicate II
- (Handler+Message+Looper+MessageQueue)源码分析
- svn历史版本操作说明
- 歪打正着;屏蔽网页里的输入;
- Principal component analysis
- POJ 4083 我爱北大
- [github]github实战 for mac
- Objective-C tips
- LCA + 并查集 Happy Tree Party codeforces593D
- 搭建Nginx+Java环境(转)
- copyFromLocal异常DataNode启动不了
- javaScript cookies
- 枚举类型转换