R语言与网站分析 第8章样本分…

来源:互联网 发布:经典知乎问答 编辑:程序博客网 时间:2024/05/17 01:58
第八章:样本细分
8.1数据降维
因子载荷(loading):定义:R语言与网站分析 <wbr>第8章样本分析:聚类分析
R语言与网站分析 <wbr>第8章样本分析:聚类分析
5.特征值和信息损失率 P296
6.因子得分:计算好因子载荷A和特殊因子e后,计算因子F的数据。
计算方式有:加权最小二乘法(Bartlett)和回归法(regression)两种计算方式。
8.1.3 factanal函数 P297
3.使用最大似然法建立因子分析模型
(1)模型建立
factanal函数采用主流的最大似然法来估算因子载荷A,从而实现因子分析过程。
factanal(~.,data=data,factors=4,scores='Bartlett',rotation='varimax')R语言与网站分析 <wbr>第8章样本分析:聚类分析
Bartlett即使用加权最小的二乘法做因子得分计算;varimax即对因子载荷进行方差最大的正交旋转。
(2)显著性检验
P值小于0.05或无法得到显著性检验的p值则表明未通过显著性检验。
4.对原始变量的方差解释
特殊方差(Uniquenesses),即可由特殊因子e,或者直接理解为信息损失。当变量的信息损失量大于0.5,即因子F对其的方差解释小于特殊因子e的方差解释。
方差贡献(特征值)(SS loadings)
方差贡献率(Proportion Var):pro.var <- ssloading[i]/n(n是原始变量数目)
累计方差贡献率(CumulativeVar):cum.bar[i]=cum.var[i-1]+pro.var[i]:各因子方差贡献率的累积比例数值。
累积方差贡献率必须大于70%,否则不能容忍信息损失量
8.2聚类分析
R语言与网站分析 <wbr>第8章样本分析:聚类分析
R语言中用dist函数:method选择距离计算方法:manhattan:绝对值距离;euclidean:欧式距离;minkoweski:闵可夫斯基距离;maximum:切比雪夫距离;canberra:Lance距离;binary:计算无序分类变量距离;;;diag=T计算对角线上的距离;upper=T:上三角下三角形式输出,upper=F:下三角输出。
标准化处理:scale函数:公式为:R语言与网站分析 <wbr>第8章样本分析:聚类分析:转换后的变量z是均值为0,标准差为1的数据。
归一化处理也可以:R语言与网站分析 <wbr>第8章样本分析:聚类分析;x取最大值,z为1;x取最小值,z为0;
R语言与网站分析 <wbr>第8章样本分析:聚类分析
R语言与网站分析 <wbr>第8章样本分析:聚类分析
4.相似度距离 P312
夹角余弦:
R语言与网站分析 <wbr>第8章样本分析:聚类分析
cos趋近于0时,表明两组数据无任何相关性
夹角余弦相似度自定义函数:
cosij<-function(xi,xj){
sum(xi*xj)/(sqrt(sum(xi^2))*sqrt(sum(xj^2)))
}
相关系数:cor()函数
8.2.2层次聚类 P314
R语言层次聚类函数:hclust
R语言与网站分析 <wbr>第8章样本分析:聚类分析
plclust函数用于绘制由hclust函数得到的对象
rect.hclust函数用于由hclust函数得到的对象按照指定的数目进行聚类分组,并绘制在图中(红线区域内的样本点是一组)。
kmeans算法:
R语言与网站分析 <wbr>第8章样本分析:聚类分析
8.3.1knn(k最近邻分类)算法 P323
算法原理:KNN(k-最近相邻)方法:在训练数据集中动态确定与新样本点(CASEnew)距离最相近(根据自变量Xi来计算距离)的k个样本点(CASE1,CASE2,...,CASEk),并利用这k个样本点的所属组别(y1,y2,...,yk)来确定新样本点所属组别(Ynew)的方法,公式:Ynew=mode(Y1,Y2,...,Yk),序列众数(mode)的取值。
R语言class包knn函数
R语言与网站分析 <wbr>第8章样本分析:聚类分析



0 0