SMALT手册

来源:互联网 发布:怎么做微信淘宝优惠卷 编辑:程序博客网 时间:2024/05/17 01:53

SMALT 是能有效地把DNA sequencing reads对齐到基因reference序列上的支持pair的基因对齐工具。它结合了短词哈希和动态规划方法。它支持大多数的测序平台包括paired-end reads。

一  摘要

smalt TASK 【options】【index seqfil-a【seqfil-b】】

可用任务:

smalt  index【index选择】索引 refseq-fil

在reference 序列上建立一个kmer词的哈希索引并将其存储在硬盘上。硬盘上有两个文件:INDEX.smi

smalt map【map选择】INDEX READ-FILE【MATE-FILE】

将索引载入 内存并将single 或者paired-end reads 对齐到reference序列上去。

smalt sample【sample选择】INDEX READ-FILE【MATE-FILE】

paired-reads的insert size的样本分布。pairs的一个子集通过索引对齐到reference。

smalt check READ-FILE【MATE-FILE】

检查read输入文件的格式是否符合FASTA/FASTQ格式。

smalt help

软件的简单说明

smalt version

版本信息


单任务说明:

smalt TASK -H

例:smalt index -H 影响生成哈希索引的选项的帮助信息

二 描述

运行smalt包括两个步骤。首先要建立短词的索引(smalt index)。之后sequencing reads被map到reference(smalt map)。

smalt使用固定长度的词的哈希表,这些词是在refseq-file中沿着基因reference 序列等距采样得到的。

然后把文件read-file(和mate-file)中的sequencing reads一个一个地map到基因reference上。

首先,通过在哈希索引中寻找read的kmer词来在reference序列识别精确匹配的seeds。基于这些seeds,使用smith-waterman算法来为对齐寻找可能匹配的片段。

三 选项

3.1 INDEX-OPTIONS

-k 词长 设置要哈希的词的长度, 2<词长<=20,默认13

-s 跳步 采样的步长,比如沿着基因reference序列进行哈希的相邻两个词的距离。若-s 1则所有的词都被哈希,-s 2表示每两个词哈希一次,-s 3 每三个。默认值被设置为词的长度。

3.2MAP-OPTIONS

-a 当被设置时,mapping与明确的对齐被输出。

-c 最小cover 当kmer 词seeds覆盖了查询read超过此最小程度时,才考虑mapping。若mincover是一个大于1.0的浮点数,表示需要read的至少这么多个碱基对被kmer词seeds覆盖。若是小于1.0的浮点数,表示read的至少这么大的比例应当被kmer词seeds覆盖。只有当使用了-x时才能设置-c的值。

-d scorediff 根据一个最大分值设置smith-waterman对齐分值的阀值。当mapping single read时,报告所有导致smith-waterman分值在最大的scorediff之内的对齐。分值比此值低的mapping被省略。若 设置scorediff<0,不设置任何阀值,所有的对齐都被报告(可能被-m minscor 和-y minid限制)。

对于paired reads,只支持0值。 -d 0选项将打印所有alignment和 得分最高的alignment  pairings。对于有若干得分最高的mapping的reads,默认情况是随机选其中一个read或者read pair,这依赖于 -r 选项,若 -r 1 ,有多个最佳mapping的reads(mate pairs)将被报告为:没有mapped。

-f format 选定输出格式。可以是下列格式之一:

bam:优先格式:bam,这个bam头总是被写。

cigar

gff

sam(默认)序列拼接/对齐格式。sam后跟一个冒号和用逗号分开的关键词。

sam:nohead,x,clip:

nohead 意思是不带sam头的输出

x是cigar对齐串包含字幕x来表示一个误匹配

这个格式里不允许用空格。默认情况下,序列是软修剪的,且当写入一个文档时,需要写头。

samsoft 同sam

ssaha

-F inform 约定输入格式。inform可以是fastq(默认),‘sam’或者‘bam’。sam/bam输入格式需要安装额外的库,可能产生临时文件。可以用-T设置临时文件的目录。

-g insfil 使用存储在insfil文件中的insert sizes的分布,这个文件是ascii格式的,可以用smalt sample task产生。

-H 在屏幕上打印指令。

-i insertmax paired end reads的最大的insert size。是个正整数,默认500.

-j insertmin paired end reads的最小的insert size。是个正整数,默认0.

-l pairtyp read pair 库使用的类型。这设定了mate-pairs的期望的相对顺序。pairtyp可以是pe,short read的illumina paired end 库,相互关系是(-> <-),mp,illumina mate pair库(长inserts,<-  ->),或者 pp,两个mates都在同一股上,(-> ->)就像454 read-pair 库一样。

-m minsor 设定 smith-waterman打分的绝对阀值。得分低于此阀值的mappings不会被报告。minscore是个正实数,默认值是词长+跳步长-1

-n nthreads 使用多线程运行smalt。nthreads是用于mapping的额外的线程数。

原创粉丝点击