SMALT手册
来源:互联网 发布:怎么做微信淘宝优惠卷 编辑:程序博客网 时间:2024/05/17 01:53
SMALT 是能有效地把DNA sequencing reads对齐到基因reference序列上的支持pair的基因对齐工具。它结合了短词哈希和动态规划方法。它支持大多数的测序平台包括paired-end reads。
一 摘要
smalt TASK 【options】【index seqfil-a【seqfil-b】】
可用任务:
smalt index【index选择】索引 refseq-fil
在reference 序列上建立一个kmer词的哈希索引并将其存储在硬盘上。硬盘上有两个文件:INDEX.smi
smalt map【map选择】INDEX READ-FILE【MATE-FILE】
将索引载入 内存并将single 或者paired-end reads 对齐到reference序列上去。
smalt sample【sample选择】INDEX READ-FILE【MATE-FILE】
paired-reads的insert size的样本分布。pairs的一个子集通过索引对齐到reference。
smalt check READ-FILE【MATE-FILE】
检查read输入文件的格式是否符合FASTA/FASTQ格式。
smalt help
软件的简单说明
smalt version
版本信息
单任务说明:
smalt TASK -H
例:smalt index -H 影响生成哈希索引的选项的帮助信息
二 描述
运行smalt包括两个步骤。首先要建立短词的索引(smalt index)。之后sequencing reads被map到reference(smalt map)。
smalt使用固定长度的词的哈希表,这些词是在refseq-file中沿着基因reference 序列等距采样得到的。
然后把文件read-file(和mate-file)中的sequencing reads一个一个地map到基因reference上。
首先,通过在哈希索引中寻找read的kmer词来在reference序列识别精确匹配的seeds。基于这些seeds,使用smith-waterman算法来为对齐寻找可能匹配的片段。
三 选项
3.1 INDEX-OPTIONS
-k 词长 设置要哈希的词的长度, 2<词长<=20,默认13
-s 跳步 采样的步长,比如沿着基因reference序列进行哈希的相邻两个词的距离。若-s 1则所有的词都被哈希,-s 2表示每两个词哈希一次,-s 3 每三个。默认值被设置为词的长度。
3.2MAP-OPTIONS
-a 当被设置时,mapping与明确的对齐被输出。
-c 最小cover 当kmer 词seeds覆盖了查询read超过此最小程度时,才考虑mapping。若mincover是一个大于1.0的浮点数,表示需要read的至少这么多个碱基对被kmer词seeds覆盖。若是小于1.0的浮点数,表示read的至少这么大的比例应当被kmer词seeds覆盖。只有当使用了-x时才能设置-c的值。
-d scorediff 根据一个最大分值设置smith-waterman对齐分值的阀值。当mapping single read时,报告所有导致smith-waterman分值在最大的scorediff之内的对齐。分值比此值低的mapping被省略。若 设置scorediff<0,不设置任何阀值,所有的对齐都被报告(可能被-m minscor 和-y minid限制)。
对于paired reads,只支持0值。 -d 0选项将打印所有alignment和 得分最高的alignment pairings。对于有若干得分最高的mapping的reads,默认情况是随机选其中一个read或者read pair,这依赖于 -r 选项,若 -r 1 ,有多个最佳mapping的reads(mate pairs)将被报告为:没有mapped。
-f format 选定输出格式。可以是下列格式之一:
bam:优先格式:bam,这个bam头总是被写。
cigar
gff
sam(默认)序列拼接/对齐格式。sam后跟一个冒号和用逗号分开的关键词。
sam:nohead,x,clip:
nohead 意思是不带sam头的输出
x是cigar对齐串包含字幕x来表示一个误匹配
这个格式里不允许用空格。默认情况下,序列是软修剪的,且当写入一个文档时,需要写头。
samsoft 同sam
ssaha
-F inform 约定输入格式。inform可以是fastq(默认),‘sam’或者‘bam’。sam/bam输入格式需要安装额外的库,可能产生临时文件。可以用-T设置临时文件的目录。
-g insfil 使用存储在insfil文件中的insert sizes的分布,这个文件是ascii格式的,可以用smalt sample task产生。
-H 在屏幕上打印指令。
-i insertmax paired end reads的最大的insert size。是个正整数,默认500.
-j insertmin paired end reads的最小的insert size。是个正整数,默认0.
-l pairtyp read pair 库使用的类型。这设定了mate-pairs的期望的相对顺序。pairtyp可以是pe,short read的illumina paired end 库,相互关系是(-> <-),mp,illumina mate pair库(长inserts,<- ->),或者 pp,两个mates都在同一股上,(-> ->)就像454 read-pair 库一样。
-m minsor 设定 smith-waterman打分的绝对阀值。得分低于此阀值的mappings不会被报告。minscore是个正实数,默认值是词长+跳步长-1
-n nthreads 使用多线程运行smalt。nthreads是用于mapping的额外的线程数。
- SMALT手册
- 手册
- 手册
- 手册
- 手册
- isa手册
- Ant手册
- php手册
- 美国士兵手册
- gawk手册
- sql手册
- bash手册
- rpm手册
- find手册
- grep手册
- SED手册
- Cookie手册
- WinBinder 手册
- 马士兵java视频学习笔记第三章:内存解析
- “java”的定义,你真的懂吗?
- 双网卡的灵活使用
- chrome中tampermonkey与github的使用----新浪基金最新数据查询
- ios网络图片的加载
- SMALT手册
- poj2299
- anroid下的内容提供者:ContentProvider
- 第7周项目2-求两数正差值
- java设计模式:状态模式
- viewDidUnload,viewDidLoad,viewWillAppear,viewWillDisappear的作用以及区别
- 物联网操作系统Hello China V1.76(PC串口版)版本发布
- pushViewController/presentModalViewController/addSubView区别及使用方法
- SSH框架学习(四、在struts和spring基础上加入hibernate)