RNA-seq experiment

来源:互联网 发布:问卷调查数据怎么分析 编辑:程序博客网 时间:2024/04/29 05:38

需要下载的RNA-seq的数据:
https://www.ncbi.nlm.nih.gov//sra/?term=SRP029245
https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP029245
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245

1.创建transcriptome文件夹并下载
for ((i=677;i<=680;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245/SRR957i/SRR957i.sra;

done

2.解压

Linux下rar tar bz gz等命令压缩和解压详解 - 知识天地 - 博客园 http://www.cnblogs.com/mfryf/archive/2013/05/25/3098237.html

命令
.tar.gz 和 .tgz
解压:tar zxvf FileName.tar.gz
压缩:tar zcvf FileName.tar.gz DirName

3.解压后得到fastq格式文件

SRR957677.sra—>SRR957677.fastq

4.不知道fastqc脚本为啥不好用,明天解决
先用命令直接检测:

fastqc SRR957677.fastq

结果显示如下:
Started analysis of SRR957677.fastq
Approx 5% complete for SRR957677.fastq
Approx 10% complete for SRR957677.fastq
Approx 15% complete for SRR957677.fastq
Approx 20% complete for SRR957677.fastq
Approx 25% complete for SRR957677.fastq
Approx 30% complete for SRR957677.fastq
Approx 35% complete for SRR957677.fastq
Approx 40% complete for SRR957677.fastq
Approx 45% complete for SRR957677.fastq
Approx 50% complete for SRR957677.fastq
Approx 55% complete for SRR957677.fastq
Approx 60% complete for SRR957677.fastq
Approx 65% complete for SRR957677.fastq
Approx 70% complete for SRR957677.fastq
Approx 75% complete for SRR957677.fastq
Approx 80% complete for SRR957677.fastq
Approx 85% complete for SRR957677.fastq
Approx 90% complete for SRR957677.fastq
Approx 95% complete for SRR957677.fastq
Approx 100% complete for SRR957677.fastq
Analysis complete for SRR957677.fast

得到的文件是:SRR957677_fastqc

20170304
今天又到transcriptome目录下输入脚本

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

然后就好用了。。。

处理过程:
stQC/fastqc -t 10
Started analysis of SRR957677.fastq
Started analysis of SRR957678.fastq
Started analysis of SRR957679.fastq
Started analysis of SRR957680.fastq
Approx 5% complete for SRR957678.fastq
Approx 10% complete for SRR957678.fastq
Approx 5% complete for SRR957677.fastq
Approx 5% complete for SRR957679.fastq
Approx 5% complete for SRR957680.fastq
Approx 15% complete for SRR957678.fastq
Approx 20% complete for SRR957678.fastq
Approx 10% complete for SRR957677.fastq
Approx 10% complete for SRR957679.fastq
Approx 25% complete for SRR957678.fastq
Approx 10% complete for SRR957680.fastq
Approx 30% complete for SRR957678.fastq
Approx 15% complete for SRR957677.fastq
Approx 15% complete for SRR957679.fastq
Approx 35% complete for SRR957678.fastq
Approx 40% complete for SRR957678.fastq

5.fastqc处理完后多出来.html结尾的质检报告
SRR957677.fastq SRR957678.fastq SRR957679_fastqc.html SRR957680_fastqc.zip
SRR957677_fastqc SRR957678_fastqc.html SRR957679_fastqc.zip SRR957680.sra
SRR957677_fastqc.html SRR957678_fastqc.zip SRR957679.sra
SRR957677_fastqc.zip SRR957678.sra SRR957680.fastq
SRR957677.sra SRR957679.fastq SRR957680_fastqc.html

6.将这些.html的质检报告下载到本地用网页打开查看

具体怎么查看参考:
科学网—[转载]fastqc解释 - 肖世俊的博文 http://blog.sciencenet.cn/blog-303373-724110.html

6.1来看看SRR957677_fastqc.html的内容
Basic Statistics

6.2 Per base sequence quality
Per base sequence quality

quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。
横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报”WARN”;若任一位置的下四分位数低于5或中位数低于20,报”FAIL”.

6.3 Per tile sequence quality
Per tile sequence quality

有问题
这一模块是检查reads中每一个碱基位置在不同的测序小孔之间的偏离度,蓝色表示低于平均偏离度,越红则说明偏离平均质量方差越多,也就是说质量越差。如果出现质量问题可能是短暂的,如有气泡产生,也可能是长期的,如在某一小孔中存在残骸。问题不大。

6.4 Per sequence quality scores
Per sequence quality scores

每条reads的quality的均值的分布:
横轴为quality,纵轴是reads数目。如果前半部分峰值较高,我们就会知道有一部分reads具有比较差的质量。
当峰值小于27(错误率0.2%)时报”WARN”,当峰值小于20(错误率1%)时报”FAIL”。

上图这个质量还可以

6.5 Per base sequence content
Per base sequence content

对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:
横轴为位置,纵轴为百分比。
正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。
因此好的样本中四条线应该平行且接近。
当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。
当任一位置的A/T比例与G/C比例相差超过10%,报”WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报”FAIL”。

图上看16位置开始正常,前面有污染

6.6 Per sequence GC content
Per Sequence GC content

统计reads的平均GC含量的分布。
红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。
曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。
形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。故该序列有系统偏差
偏离理论分布的reads超过15%时,报”WARN”;偏离理论分布的reads超过30%时,报”FAIL”。

6.7 Per base N content
Per base N content

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率:
正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。
当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。
当任意位置的N的比例超过5%,报”WARN”;当任意位置的N的比例超过20%,报”FAIL”。

6.8 Sequence Length Distribution
Sequence Length Distribution

reads长度的分布。
当reads长度不一致时报”WARN”;当有长度为0的read时报“FAIL”。

6.9 Sequence Duplication Levels
Sequence Duplication Levels

Duplicate Sequences
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)

横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。
上图的情况中,相当于unique reads数目~20%的reads是观察到两个重复的,~7%是观察到三次重复的,依此类推。
可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。
重复数目大于等于10的reads被合并统计,这也是为什么我们看到上图的最右侧略有上扬。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例大于20%时,报”WARN”;当非unique的reads占总数的比例大于50%时,报”FAIL“。

6.10 Overrepresented sequences
Overrepresented sequences

如果有某个序列大量出现,就叫做over-represented。
fastqc的标准是占全部reads的0.1%以上。
和上面的duplicate analysis一样,为了计算方便,只取了fq数据的前200,000条reads进行统计,所以有可能over-represented reads不在里面。而且大于75bp的reads也是只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。
当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。

6.11 Adapter Content
Adapter Content

fastqc里有一项是adapter content,你看一下这个曲线,如果有波动代表有接头,平的为0,就是没有接头

一般来说GEO上的数据都是去过接头的,那项内容合格就没有任何问题了

6.12 Kmer Content
Kmer Content

如果某k个bp的短序列在reads中大量出现,其频率高于统计期望的话,fastqc将其记为over-represented k-mer。
默认的k = 5,可以用-k –kmers选项来调节,范围是2-10
出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer被认为是over-represented
fastqc除了列出所有over-represented k-mers,还会把前6个的per base distribution画出来

当有出现频率总体上3倍于期望或是在某位置上5倍于期望的k-mer时,报”WARN“;当有出现频率在某位置上10倍于期望的k-mer时报”FAIL”

6.13
总结图

侧面这张图一开始就标明了有问题的有哪些:
没问题的有哪些:
黄色和红色是有问题的

哟,发现一个博主,和我一样什么都八卦,连fastqc都不放过
RNA-seq数据质量控制看人打架学人骂街新浪博客 http://blog.sina.com.cn/s/blog_1319a10ee0102vfbx.html

0 0
原创粉丝点击