R WGCNA基础(1)——数据过滤

来源:互联网 发布:c语言的平方根 编辑:程序博客网 时间:2024/05/22 04:54

WGCNA(Weighted Correlation Network analysis)是一个基于基因表达网络权重构建,描述基因表达的关联模式的R包。挺拗口的吧,其实简单点的话分析基因的共表达网络,就是两个样本有表达量,那么博主根据表达量可以计算相关性,但如果加入一些新的权重,比如重量、高度、应激条件等等,相当于把基因表达与条件结合起来分析两者之间的关联性或相关性,当然表达量是最关键的。由此也可以延伸到其他关联分析,比如SNP等等。最简单的所有基因表达的结果,额,博主随便找的数据,建议先做标准化之后再进行分类:

library(WGCNA)options(stringsAsFactors=FALSE)enableWGCNAThreads()myfile=read.table("test.txt", sep="\t", header=TRUE)mydata=as.data.frame(myfile[, -c(1)])rownames(mydata)=myfile$ENSTmytree=flashClust(dist(mydata), method="average")mycolor=numbers2colors(mydata, signed=FALSE)pdf(file="test.pdf")plotDendroAndColors(mytree, mycolor, groupLabels=names(mydata), dendroLabels=FALSE, hang=0.01)dev.off()

基因太多就是这个样子,大约2W个基因,如果少一点就好看了许多~~~
数据过滤:

clust = cutreeStatic(mytree, cutHeight = 15, minSize = 10)#将15以上数据过滤去keepSamples = (clust==1)dat = mydata[keepSamples, ]
原创粉丝点击