[samtools] idxstats bedcov faidx命令简介

来源:互联网 发布:全国新长征突击乎和平 编辑:程序博客网 时间:2024/05/04 23:22

        samtools idxstats命令功能简介:

        检索和打印已建立索引的bam文件的统计数据,包括参考序列名称、序列长度、比对上的read数量和未比对上的read数量。输出结果显示在屏幕上,以制表符分割。

        命令格式:

        samtools idxstats  <in.bam>

        如下图所示:

        samtools bedcov命令功能简介:

        计算由BED文件指定的基因组区域内的总碱基数量。

        命令格式:

        samtools bedcovregion.bed <in.bam | in.sam | in.cram>

        如下图所示:

        

        samtools faidx命令功能简介:

        对fasta格式的参考序列建立索引或者从已经创建索引的参考序列中提取一段序列。如果没有指定区域,faidx命令就创建文件索引并生成后缀为.fai的索引文件。如果指定区域,那么就是生产并显示fasta格式的子序列。输入文件可以使BGZF压缩格式的文件。

        另外,输入文件中的序列要有不同的名称。如果不是这样,即存在相同名称的序列,在建立索引的过程中将发出有关重复序列的警告而且生产的同名子序列的信息都要被第一个同名子序列的信息覆盖。

        命令格式:

        samtools faidx <ref.fasta> [region1,…]

        如下图所示:

        

        上图中先显示了待处理的test.fasta文件的内容,由4个长度不一的序列组成,其中前两个重名。然后使用faidx命令进行处理。最后在显示生产索引文件test.fasta.fai的内容。fai文件一共包括5列。第一列是名称,每个序列”>”之后到第一个空格之前的所有字符;第二列是序列长度,单位为bp;第三列是OFFSET,第一个碱基的偏移量,以0为起始值;第四列LINEBASES,除了最后一行以外,其他代表序列的碱基数,单位为bp;第四列行宽(LINEWIDTH),除了最后一行以外,其他代表序列的长度,包括换行符。注:windows系统中换行符为\r\n,要在序列长度的基础上加2。

        提取序列如下图:

0 0
原创粉丝点击