bam/sam 数据格式的介绍 (一)

来源:互联网 发布:python字典转化 编辑:程序博客网 时间:2024/05/16 08:40
1.bam文件读取
samtools view xxx.bam
samtools view xxx.bam |less 

2.bam和sam的区别与一致

sam是带有比对信息的序列文件(即告诉你这个reads在染色体上的位置等),用于储存序列数据(SAM  format is a generic format for storing large nucleotide sequence alignments. )。

BAM is the compressed binary version of the Sequence Alignment/Map (SAM) format. 生物信息中的二进制文件主要是为了节约空间,计算机机可读。可以用samtools工具实现sam和bam文件之间的转化。

二者都是fastq文件经过序列比对或者mapping后输出的格式(其储存的信息都是一致的)

3.资料来源:
Samtools官网:http://samtools.sourceforge.net/
UCSC 上对BAM Track Format介绍:genome.ucsc.edu/goldenPath/help/bam.html
Samtools应用实例:https://wikis.utexas.edu/display/CoreNGSTools/SAM+format+and+samtools
Samtools参考文献:The Sequence alignment/map (SAM) format and SAMtools
对SAM每一列的详细解释: http://genome.sph.umich.edu/wiki/SAM
SAM格式解释及specification介绍: http://davetang.org/wiki/tiki-index.php?page=SAM
能利用或产生SAM/BAM的NGS软件:http://samtools.sourceforge.net/swlist.shtml

4.格式(sam与bam格式是一致)

SAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。

其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。Tag以键值对的形式存在。

alignment section 必须由11个字段组成 ,以tab分开。如果其内容没有获得,可以用*或者0代替。

QNAME, FLAG, RNAME, POS, MAPQ, CIGAR, MRNM, MPOS, ISIZE, SEQ, QUAL
原创粉丝点击