R语言经典实例 12-13章

来源：互联网发布：经典知乎问答编辑：程序博客网时间：2024/05/17 07:32

12章有用的方法
rowSums行的和
colSums列的和
对数据分组 f<-cut(x,breaks) labels列名标签
找到特定值的位置，match函数，最大值which.max
seq_along和seq_len总是返回一个整数向量
每隔n个选定一个向量元素：v[seq_along(v)%%n==0]
平行最小值：pmin(1:5,5:1)输出结果是1 2 3 2 1
平行最大值：pmax(1:5,5:1)输出结果是5 4 3 4 5
生成多个因子的组合expand.grid(f,g) f,g是两个因子
函数sort适用于处理向量，对数据框无效
do.call分拆数据，构建和执行一个函数调用   envir环境，quote引用，complex复杂的，难懂的
12.19定义你自己的二元运算符 1%+-%1等于1+1和1-1

13章高级数值分析和统计方法
最小化或最大化一个单参数函数：optimize（f,lower=,upper=）
最小化或最大化一个多参数函数：optim(startingPoint,f,control=list(fnscale=-1))
计算特征值和特征向量应用函数eigen，它返回一个含有两个元素的列表
   values和vectors表示矩阵的特征值和特征向量
主成分分析PCA：prcomp、princomp函数
数据聚类：cutree(hc,k=n) 层次:hclust
13.8预测二元变量（逻辑回归）：glm（ ~ ，family=binomial）
案例：dfrm<-data.frame(x1=value,x2=value,x3=value，data=data)
     predict(m,type='response',newdata=dfrm)
调用函数predict时，type='response'返回一个概率值
统计量的自助法：boot包的boot函数是计算所需估计统计量的自助抽样
公式：reps<-boot(data,stat,R=999)选择重复的次数999，函数boot.ci来估计自助抽样的置信区间。
     type设定需要应用的算法。indices定义的特定的索引来选择数据子集，再子集上计算斜率。
     conf是改变置信区间。
1：在原来的样本中随机地有返回抽取N个元素，这N个元素组成的集合称为自助抽样
2：应用统计量函数计算自助抽样的统计量值，这个统计量值称为自助复制
3：多次（一般几千次）重复进行第1步和第2步，得到相应的自助复制
4：从第3步得到的自助复制来计算置信区间
13.9因子分析
函数：factanal(data,factors=n)输入函数是原始的数据集和估计因子个数
因子分析两个关键环节：1：公共因子数目的选择：用主成分分析得到因子个数的初步估计。
                     2：因子本身的解释
   其中：主成分分析prcomp，然后plot，根据主成分变差选择。
因子分析中，p值过小，说明因子数不够，结果不够好。大于0.05最好。
解释方差表：Proportion Var比例风险；ComulativeVar累计风险
案例：Factor(1-3)中Proportion Var 0.403 0.20.179他们的方差比例为0.782，无解释方差比例为1-0.782=0.218
loadings因子载荷

0 0