R语言与网站分析第8章样本分…

来源：互联网发布：经典知乎问答编辑：程序博客网时间：2024/05/17 01:58

第八章：样本细分
8.1数据降维
因子载荷（loading）：定义： R语言与网站分析 第8章样本分析：聚类分析

5.特征值和信息损失率 P296
6.因子得分：计算好因子载荷A和特殊因子e后，计算因子F的数据。
计算方式有：加权最小二乘法（Bartlett）和回归法（regression）两种计算方式。
8.1.3 factanal函数 P297
3.使用最大似然法建立因子分析模型
（1）模型建立
factanal函数采用主流的最大似然法来估算因子载荷A，从而实现因子分析过程。
factanal(~.,data=data,factors=4,scores='Bartlett',rotation='varimax') R语言与网站分析 第8章样本分析：聚类分析

Bartlett即使用加权最小的二乘法做因子得分计算；varimax即对因子载荷进行方差最大的正交旋转。
（2）显著性检验
P值小于0.05或无法得到显著性检验的p值则表明未通过显著性检验。
4.对原始变量的方差解释
特殊方差（Uniquenesses），即可由特殊因子e，或者直接理解为信息损失。当变量的信息损失量大于0.5，即因子F对其的方差解释小于特殊因子e的方差解释。
方差贡献（特征值）（SS loadings）
方差贡献率（Proportion Var）：pro.var <- ssloading[i]/n（n是原始变量数目）
累计方差贡献率（CumulativeVar）:cum.bar[i]=cum.var[i-1]+pro.var[i]:各因子方差贡献率的累积比例数值。
累积方差贡献率必须大于70%，否则不能容忍信息损失量
8.2聚类分析
R语言与网站分析 第8章样本分析：聚类分析

R语言中用dist函数：method选择距离计算方法：manhattan：绝对值距离；euclidean：欧式距离；minkoweski：闵可夫斯基距离；maximum：切比雪夫距离；canberra：Lance距离；binary：计算无序分类变量距离；；；diag=T计算对角线上的距离；upper=T：上三角下三角形式输出，upper=F：下三角输出。
标准化处理：scale函数：公式为：

：转换后的变量z是均值为0，标准差为1的数据。
归一化处理也可以： R语言与网站分析 第8章样本分析：聚类分析

；x取最大值，z为1；x取最小值，z为0；
R语言与网站分析 第8章样本分析：聚类分析

4.相似度距离 P312
夹角余弦：
R语言与网站分析 第8章样本分析：聚类分析

cos趋近于0时，表明两组数据无任何相关性
夹角余弦相似度自定义函数：
cosij<-function(xi,xj){
sum(xi*xj)/(sqrt(sum(xi^2))*sqrt(sum(xj^2)))
}
相关系数：cor()函数
8.2.2层次聚类 P314
R语言层次聚类函数：hclust
R语言与网站分析 第8章样本分析：聚类分析

plclust函数用于绘制由hclust函数得到的对象
rect.hclust函数用于由hclust函数得到的对象按照指定的数目进行聚类分组，并绘制在图中（红线区域内的样本点是一组）。
kmeans算法：
R语言与网站分析 第8章样本分析：聚类分析

8.3.1knn（k最近邻分类）算法 P323
算法原理：KNN(k-最近相邻)方法：在训练数据集中动态确定与新样本点（CASEnew）距离最相近（根据自变量Xi来计算距离）的k个样本点（CASE1,CASE2,...,CASEk）,并利用这k个样本点的所属组别（y1,y2,...,yk）来确定新样本点所属组别（Ynew）的方法，公式：Ynew=mode(Y1,Y2,...,Yk)，序列众数（mode）的取值。
R语言class包knn函数
R语言与网站分析 第8章样本分析：聚类分析

0 0

R语言与网站分析 第8章样本分…

R语言与网站分析第8章样本分…