R语言经典实例 12-13章

来源:互联网 发布:经典知乎问答 编辑:程序博客网 时间:2024/05/17 07:32
12章有用的方法
rowSums行的和
colSums列的和
对数据分组 f<-cut(x,breaks) labels列名标签
找到特定值的位置,match函数,最大值which.max
seq_along和seq_len总是返回一个整数向量
每隔n个选定一个向量元素:v[seq_along(v)%%n==0]
平行最小值:pmin(1:5,5:1)输出结果是1 2 3 2 1
平行最大值:pmax(1:5,5:1)输出结果是5 4 3 4 5
生成多个因子的组合expand.grid(f,g) f,g是两个因子
函数sort适用于处理向量,对数据框无效
do.call分拆数据,构建和执行一个函数调用   envir环境,quote引用,complex复杂的,难懂的
12.19定义你自己的二元运算符 1%+-%1等于1+1和1-1

13章高级数值分析和统计方法
最小化或最大化一个单参数函数:optimize(f,lower=,upper=)
最小化或最大化一个多参数函数:optim(startingPoint,f,control=list(fnscale=-1))
计算特征值和特征向量 应用函数eigen,它返回一个含有两个元素的列表
   values和vectors表示矩阵的特征值和特征向量
主成分分析PCA:prcomp、princomp函数
数据聚类:cutree(hc,k=n)  层次:hclust
13.8预测二元变量(逻辑回归):glm( ~ ,family=binomial)
案例:dfrm<-data.frame(x1=value,x2=value,x3=value,data=data)
     predict(m,type='response',newdata=dfrm)
调用函数predict时,type='response'返回一个概率值
统计量的自助法:boot包的boot函数是计算所需估计统计量的自助抽样
公式:reps<-boot(data,stat,R=999)选择重复的次数999,函数boot.ci来估计自助抽样的置信区间。
     type设定需要应用的算法。indices定义的特定的索引来选择数据子集,再子集上计算斜率。
     conf是改变置信区间。
1:在原来的样本中随机地有返回抽取N个元素,这N个元素组成的集合称为自助抽样
2:应用统计量函数计算自助抽样的统计量值,这个统计量值称为自助复制
3:多次(一般几千次)重复进行第1步和第2步,得到相应的自助复制
4:从第3步得到的自助复制来计算置信区间
13.9因子分析
函数:factanal(data,factors=n)输入函数是原始的数据集和估计因子个数
因子分析两个关键环节:1:公共因子数目的选择:用主成分分析得到因子个数的初步估计。
                     2:因子本身的解释
   其中:主成分分析prcomp,然后plot,根据主成分变差选择。
  因子分析中,p值过小,说明因子数不够,结果不够好。大于0.05最好。
  解释方差表:Proportion Var比例风险;ComulativeVar累计风险
  案例:Factor(1-3)中Proportion Var 0.403 0.20.179他们的方差比例为0.782,无解释方差比例为1-0.782=0.218
  loadings因子载荷

0 0
原创粉丝点击