#step by step# Linux command line and explanation for NGS data

来源:互联网 发布:淘宝手机详情图片少 编辑:程序博客网 时间:2024/06/15 13:06

参考http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/linux.html

http://blog.csdn.net/lixiangyong123/article/details/52062323

http://blog.csdn.net/lixiangyong123/article/details/51816747

http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

​处理NGS数据的命令及解释,图文笔记。

1送样得到数据

送样到测序公司,NGS测序下机得到的数据是fastq格式的raw data,通常测序公司在将数据返回给客户之前会做“clean”处理,即得到clean_data;不管有没有clean,最好都进行质量控制;(公司返回的数据 单向测序是一个fastq.gz格式压缩文件,双向测序是两个fastq.gz格式压缩文件)

2质量控制

2.1质量检测

软件:FastQC

perl .../FastQC/fastqc -o qc --noextract -f fastq  Sample_1.fastq.gz Sample_2.fastq.gz
-o qc 输出结果到文件夹qc(文件夹qc需要事先创建);

--noextract 默认是把输出结果自动解压缩,命令里加上--noextract则不解压缩,输出结果为*.zip文件;
或者简单些,不加参数直接用:

fastqc Sample_1.fastq.gz Sample_2.fastq.gz
检测完毕后会得到测序结果报告*.html文件,(上面*.zip压缩包里面就是.html里面的图片,没啥用),打开*.html文件;


有红色X的选项表示质量检测不过关的选项,是质量控制的关键;

比如上图中的Per base sequence content,代表要trim掉前15bp;


如Adapter Content,需要去接头;


2.2 Quality Control(QC)质量控制(reads的质量控制)

cite:http://blog.csdn.net/SHMILYRINGPULL/article/details/9225195

Quality Control,即过滤低质量reads,低质量的reads有如下几种:

  • 含有Primer/Adaptor的reads
  • 含有过多non-ATCG碱基N的reads
  • 测序质量较低的碱基数占的比例过高的reads

软件:NGSQC toolkit (官网:http://www.nipgr.res.in/ngsqctoolkit.html;citation:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0030619)

该软件解压缩后包括4个文件夹(QC Tools、Trimming Tools、Statistics Tools、Format-converter Tools)和1个PDF格式的manual文件。manual文件是详细的说明;4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后,其介绍如下:

QC Tools文件夹

QC Tools文件夹中包含了5个perl程序:IlluQC.pl、IlluQC_PRLL.pl(用于ILLUMINA平台下机reads的QC)和454QC.pl、454QC_PRLL.pl 用于454平台下机reads的QC)和454QC_PE.pl (用于454平台paired-end测序下机reads的QC);其中IlluQC_PRLL.pl、454QC_PRLL.pl与IlluQC.pl、454QC.pl相比没有多大区别,只是多了 ‘-c’ 参数来进行并行计算,增加程序速度,可优先选择。

默认情况下去除掉含有primer/adaptor的reads和低质量的reads,并给出统计结果和6种图形结果。

perl .../NGSQCToolkit_v2.3.3/QC/IlluQC_PRLL.pl -pe .../Sample_1.fastq Sample_2.fastq 2 5 -c 4 -p 8 -l 70 -s 20 -o output 

5       根据测序机器1.8版本以后的都选5  ;
-c 8  选用8个的cpu,越多越快;  
-l 70  -s 20 去除了数据中碱基质量低于20(q20)的为低质量碱基; ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads;
-o 选着输出的文件夹