数据预处理——以GSE3494为例

来源:互联网 发布:什么是js文件 编辑:程序博客网 时间:2024/05/16 01:49

1、数据读取

1)读取excel文件——GEO中Series Matrix File(s)是预处理过的基因表达矩阵,用excel打开删掉注释信息,获得行为探针,列为样本的基因表达矩阵。

read.table(),read.csv(),read.delim()直接读取EXCEl文件时,都会遇到一下问题:“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。

解决的方法有以下几种:假如文件1.1中是一个6乘以2的矩阵,元素为:

             

123224325426527628

 

 方法1:xls另存为csv格式然后用read.csv:

> data<-read.csv("D:\\work\\data\\1.csv")

> data
  X1 X23
 2     24
 3     25
 4     26
 5     27
 6     28
> data<-read.csv("D:\\work\\data\\1.csv",header = F)
> data
  V1    V2
 1 23333
 2    24
 3    25
 4    26
 5    27
 6    28
> data<-read.csv("D:\\work\\data\\1.csv",header = T)
> data
  X1 X23333
 2     24
 3     25
 4     26
 5     27
 6     28
也就是说header = T(TURE)是默认的状态,在这默认状态下,输出的data矩阵是一个5乘以2的矩阵,第一行作为了data的名字,如果header = F(FALSE),则会现实原始的矩阵结果。

方法二:  xls另存为txt格式然后用read.table

> data<-read.table("D:\\work\\data\\1.txt",header = T)

> data
  X1 X23
 2  24
 3  25
 4  26
 5  27
 6  28

> data<-read.table("D:\\work\\data\\1.txt",header = F)
> data
  V1 V2
 1 23
 2 24
 3 25
 4 26
 5 27
 6 28

方法二: 打开EXCEL,全选里面的内容,点击复制,然后在R中输入一下命令:

 > data <- read.table("clipboard", header = T, sep = '\t')

> data
  X1 X23
 2  24
 3  25
 4  26
 5  27
 6  28
> data <- read.table("clipboard", header = F, sep = '\t')
> data
  V1 V2
 1 23
 2 24
 3 25
 4 26
 5 27
 6 28

2) 读取rawdata——用tcltk或者GEOquery

gds<-getGEO(GEO=“GSE3494”,destdir=getwd());%下载Series Matrix File(s)

getGEOSuppFiles(GEO="GSE3494",baseDir=getwd());%下载Rawdata



setwd到文件夹GSE5563

untar("GSE5563_RAW.tar",exdir="data")

,其中data文件夹中


celpath<-paste(getwd(),"data",sep="/")

setwd(celpath)

=====================================================

raw_data<-ReadAffy()
> class(raw_data)
[1] "AffyBatch"
attr(,"package")
[1] "affy"

=====================================================

2、质量控制——看RLE箱线图和NUSE箱线图

Pset<-fitPLM(raw_data);对数据集做回归计算

Mbox(Pset):RLE,RLE值都在0附近

boxplot(Pset);NUSE,NUSE值都在1附近

3、数据预处理——背景校正、标准化和估计表达值,总体方针是用rma处理,看直方图和箱线图

hist(raw_data)%直方图

hist(raw_data_rma)

hist(raw_data_mas5)

boxplot(raw_data)%箱线图

boxplot(raw_data_rma)

boxplot(raw_data_mas5)



0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 20了丁丁还很小怎么办 5角硬币吞进肚子怎么办 孩子吞了5角硬币怎么办 左腿比右腿微粗怎么办 一个腿长一个腿短怎么办 刚买的毛笔很硬怎么办 我哥哥太爱我了怎么办 如果婚姻无法维持该怎么办 捡了一只流浪狗怎么办 微博加载不出来怎么办 我的脾气很暴躁怎么办 歌单恢复已删除怎么办 家里破产了我该怎么办 对付有心计的人怎么办 上嘴唇无故肿了怎么办 下嘴唇肿了一半怎么办 狗狗早上叫不停怎么办 狗在家乱咬东西怎么办 狗狗晚上一直叫怎么办 金毛幼犬晚上叫怎么办 金毛晚上老是叫怎么办 5岁宝宝总尿裤子怎么办 2岁宝宝尿裤子怎么办 2周岁宝宝尿裤子怎么办 5岁宝宝尿裤子怎么办 模拟人生4不怀孕怎么办 狗狗的毛打结怎么办 狗狗生病了不吃东西怎么办 给领导送礼不收怎么办 国外弃货,货代怎么办 不小心拜了阴庙怎么办 要考试了不想考怎么办? 刚怀孕喝了红酒怎么办 不知道该怎么办的成语 墙纸3年了有味道怎么办 本命佛不要了怎么办 本命佛不想戴了怎么办 刚养的猫怕人怎么办 吃了马蜂蛹过敏怎么办 三星s5边框掉漆怎么办 一楼厕所反味怎么办