数据预处理——以GSE3494为例
来源:互联网 发布:什么是js文件 编辑:程序博客网 时间:2024/05/16 01:49
1、数据读取
1)读取excel文件——GEO中Series Matrix File(s)是预处理过的基因表达矩阵,用excel打开删掉注释信息,获得行为探针,列为样本的基因表达矩阵。
read.table(),read.csv(),read.delim()直接读取EXCEl文件时,都会遇到一下问题:“在读取‘.xls’的TableHeader时遇到不完全的最后一行”。
解决的方法有以下几种:假如文件1.1中是一个6乘以2的矩阵,元素为:
方法1:xls另存为csv格式然后用read.csv:
> data<-read.csv("D:\\work\\data\\1.csv")
> data
1
2
3
4
5
> data<-read.csv("D:\\work\\data\\1.csv",header = F)
> data
1
2
3
4
5
6
> data<-read.csv("D:\\work\\data\\1.csv",header = T)
> data
1
2
3
4
5
也就是说header = T(TURE)是默认的状态,在这默认状态下,输出的data矩阵是一个5乘以2的矩阵,第一行作为了data的名字,如果header = F(FALSE),则会现实原始的矩阵结果。
方法二:
> data<-read.table("D:\\work\\data\\1.txt",header = T)
> data
1
2
3
4
5
> data<-read.table("D:\\work\\data\\1.txt",header = F)
> data
1
2
3
4
5
6
方法二: 打开EXCEL,全选里面的内容,点击复制,然后在R中输入一下命令:
> data
1
2
3
4
5
> data <- read.table("clipboard", header = F, sep = '\t')
> data
1
2
3
4
5
6
2) 读取rawdata——用tcltk或者GEOquery
gds<-getGEO(GEO=“GSE3494”,destdir=getwd());%下载Series Matrix File(s)
getGEOSuppFiles(GEO="GSE3494",baseDir=getwd());%下载Rawdata
setwd到文件夹GSE5563
untar("GSE5563_RAW.tar",exdir="data")
,其中data文件夹中
celpath<-paste(getwd(),"data",sep="/")
setwd(celpath)
=====================================================
raw_data<-ReadAffy()
> class(raw_data)
[1] "AffyBatch"
attr(,"package")
[1] "affy"
=====================================================
2、质量控制——看RLE箱线图和NUSE箱线图
Pset<-fitPLM(raw_data);对数据集做回归计算
Mbox(Pset):RLE,RLE值都在0附近
boxplot(Pset);NUSE,NUSE值都在1附近
3、数据预处理——背景校正、标准化和估计表达值,总体方针是用rma处理,看直方图和箱线图
hist(raw_data)%直方图
hist(raw_data_rma)
hist(raw_data_mas5)
boxplot(raw_data)%箱线图
boxplot(raw_data_rma)
boxplot(raw_data_mas5)
- 数据预处理——以GSE3494为例
- 数据挖掘中的预处理——以电信客户流失问题为例
- 如何将多个文本数据转化为指定数据格式[以电影数据为例](数据预处理)
- kaggle数据挖掘——以Titanic为例介绍处理数据大致步骤
- Web中树形数据(层级关系数据)的实现—以行政区树为例
- Web中树形数据(层级关系数据)的实现—以行政区树为例(二)
- SPSS——数据预处理
- “大数据”的价值——以Hadoop为核心
- “大数据”的价值——以Hadoop为核心
- OpenLayers项目分析——(五) 数据解析——以JSON为例
- OpenLayers项目分析——(六) 数据解析——以GML为例
- OpenLayers项目分析[转](五):数据解析——以GML为例
- OpenLayers项目分析------------- 数据解析——以GML为例
- WorldWind学习系列十四:DEM数据加载和应用——以SRTM为例
- OpenLayers项目分析------------- 数据解析——以GML为例
- OWL API 简单应用 构建领域本体 —— 以旅游数据为例
- 【数据挖掘】关联规则分析——以1984年美国国会投票记录为例
- Python拉勾爬虫——以深圳地区数据分析师为例
- linux 安装源码包方法
- Hibernate Search常用注解总结
- TeamViewer (实现电脑之间的远程通信)
- 在 Android 下使用 FrameBuffer 绘图
- Attaching sources in IntelliJ IDEA for scala project 源码
- 数据预处理——以GSE3494为例
- 2016.4.6 Android技术集萃
- Eclipse:An internal error occurred during: "Build Project". GC overhead limit exceeded
- 用Java实现周易算卦
- NodeJS研究笔记:异步编程导致难以察觉的bug
- main()方法
- 2016-4-6工作日志:C读取文本文件
- js点击的时候变颜色怎么做?
- ireport导出中文pdf