R WGCNA基础（1）——数据过滤

来源：互联网发布：c语言的平方根编辑：程序博客网时间：2024/05/22 04:54

WGCNA（Weighted Correlation Network analysis）是一个基于基因表达网络权重构建，描述基因表达的关联模式的R包。挺拗口的吧，其实简单点的话分析基因的共表达网络，就是两个样本有表达量，那么博主根据表达量可以计算相关性，但如果加入一些新的权重，比如重量、高度、应激条件等等，相当于把基因表达与条件结合起来分析两者之间的关联性或相关性，当然表达量是最关键的。由此也可以延伸到其他关联分析，比如SNP等等。最简单的所有基因表达的结果，额，博主随便找的数据，建议先做标准化之后再进行分类：

library(WGCNA)options(stringsAsFactors=FALSE)enableWGCNAThreads()myfile=read.table("test.txt", sep="\t", header=TRUE)mydata=as.data.frame(myfile[, -c(1)])rownames(mydata)=myfile$ENSTmytree=flashClust(dist(mydata), method="average")mycolor=numbers2colors(mydata, signed=FALSE)pdf(file="test.pdf")plotDendroAndColors(mytree, mycolor, groupLabels=names(mydata), dendroLabels=FALSE, hang=0.01)dev.off()

基因太多就是这个样子，大约2W个基因，如果少一点就好看了许多~~~
数据过滤：

clust = cutreeStatic(mytree, cutHeight = 15, minSize = 10)#将15以上数据过滤去keepSamples = (clust==1)dat = mydata[keepSamples, ]