生信 Fastq 文件讲解

来源:互联网 发布:淘宝卖家设置流量包 编辑:程序博客网 时间:2024/04/24 15:46

@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
  上面4行为fastq文件的前4行   ,图如下  

 第一行以@开头,后面是reads的ID以及其他信息,例如上例中 HWUSI-EAS100R代表Illmina设备名称,6代表flowcell中的第六个lane,73代表第六个lane中的第73个tile,941:1973代表该read在该tile中的x:y坐标信息;#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads;/1代表paired end中的前一个read。
第二行为read的序列。
紧接着下面两行代表该read的质量。
第三行以“+”开头,跟随者该read的名称(一般于@后面的内容相同),但有时可以省略,但“+”一定不能省。
第四行代表reads的质量。这一行可以详细说一下!Illumina测序仪是按照荧光信号来判断所测序的碱基是哪一种的,例如红黄蓝绿分别对应ATCG,那么一旦出现一个紫色的信号该怎么判断呢,因此对每个结果都有一个概率的问题。起初sanger中心用Phred quality score来衡量该read中每个碱基的质量,既-10lgP ,其中P代表该碱基被测序错误的概率,如果该碱基测序出错的概率为0.001,则Q应该为30,那么30+33=63,那么63对应的ASCii码为“?”,则在第四行中该碱基对应的质量代表值即为“?”
ASCii参考如图

0 0
原创粉丝点击