SMALT手册

来源：互联网发布：怎么做微信淘宝优惠卷编辑：程序博客网时间：2024/05/17 01:53

SMALT 是能有效地把DNA sequencing reads对齐到基因reference序列上的支持pair的基因对齐工具。它结合了短词哈希和动态规划方法。它支持大多数的测序平台包括paired-end reads。

一摘要

smalt TASK 【options】【index seqfil-a【seqfil-b】】

可用任务：

smalt index【index选择】索引 refseq-fil

在reference 序列上建立一个kmer词的哈希索引并将其存储在硬盘上。硬盘上有两个文件：INDEX.smi

smalt map【map选择】INDEX READ-FILE【MATE-FILE】

将索引载入内存并将single 或者paired-end reads 对齐到reference序列上去。

smalt sample【sample选择】INDEX READ-FILE【MATE-FILE】

paired-reads的insert size的样本分布。pairs的一个子集通过索引对齐到reference。

smalt check READ-FILE【MATE-FILE】

检查read输入文件的格式是否符合FASTA/FASTQ格式。

smalt help

软件的简单说明

smalt version

版本信息

单任务说明：

smalt TASK -H

例：smalt index -H 影响生成哈希索引的选项的帮助信息

二描述

运行smalt包括两个步骤。首先要建立短词的索引（smalt index）。之后sequencing reads被map到reference（smalt map）。

smalt使用固定长度的词的哈希表，这些词是在refseq-file中沿着基因reference 序列等距采样得到的。

然后把文件read-file（和mate-file）中的sequencing reads一个一个地map到基因reference上。

首先，通过在哈希索引中寻找read的kmer词来在reference序列识别精确匹配的seeds。基于这些seeds，使用smith-waterman算法来为对齐寻找可能匹配的片段。

三选项

3.1 INDEX-OPTIONS

-k 词长设置要哈希的词的长度， 2<词长<=20，默认13

-s 跳步采样的步长，比如沿着基因reference序列进行哈希的相邻两个词的距离。若-s 1则所有的词都被哈希，-s 2表示每两个词哈希一次，-s 3 每三个。默认值被设置为词的长度。

3.2MAP-OPTIONS

-a 当被设置时，mapping与明确的对齐被输出。

-c 最小cover 当kmer 词seeds覆盖了查询read超过此最小程度时，才考虑mapping。若mincover是一个大于1.0的浮点数，表示需要read的至少这么多个碱基对被kmer词seeds覆盖。若是小于1.0的浮点数，表示read的至少这么大的比例应当被kmer词seeds覆盖。只有当使用了-x时才能设置-c的值。

-d scorediff 根据一个最大分值设置smith-waterman对齐分值的阀值。当mapping single read时，报告所有导致smith-waterman分值在最大的scorediff之内的对齐。分值比此值低的mapping被省略。若设置scorediff<0，不设置任何阀值，所有的对齐都被报告（可能被-m minscor 和-y minid限制）。

对于paired reads，只支持0值。 -d 0选项将打印所有alignment和得分最高的alignment pairings。对于有若干得分最高的mapping的reads，默认情况是随机选其中一个read或者read pair，这依赖于 -r 选项，若 -r 1 ，有多个最佳mapping的reads（mate pairs）将被报告为：没有mapped。

-f format 选定输出格式。可以是下列格式之一：

bam：优先格式：bam，这个bam头总是被写。

cigar

gff

sam（默认）序列拼接/对齐格式。sam后跟一个冒号和用逗号分开的关键词。

sam：nohead，x，clip：

nohead 意思是不带sam头的输出

x是cigar对齐串包含字幕x来表示一个误匹配

这个格式里不允许用空格。默认情况下，序列是软修剪的，且当写入一个文档时，需要写头。

samsoft 同sam

ssaha

-F inform 约定输入格式。inform可以是fastq（默认），‘sam’或者‘bam’。sam/bam输入格式需要安装额外的库，可能产生临时文件。可以用-T设置临时文件的目录。

-g insfil 使用存储在insfil文件中的insert sizes的分布，这个文件是ascii格式的，可以用smalt sample task产生。

-H 在屏幕上打印指令。

-i insertmax paired end reads的最大的insert size。是个正整数，默认500.

-j insertmin paired end reads的最小的insert size。是个正整数，默认0.

-l pairtyp read pair 库使用的类型。这设定了mate-pairs的期望的相对顺序。pairtyp可以是pe，short read的illumina paired end 库，相互关系是(-> <-)，mp，illumina mate pair库（长inserts，<- ->），或者 pp，两个mates都在同一股上，（-> ->）就像454 read-pair 库一样。

-m minsor 设定 smith-waterman打分的绝对阀值。得分低于此阀值的mappings不会被报告。minscore是个正实数，默认值是词长+跳步长-1

-n nthreads 使用多线程运行smalt。nthreads是用于mapping的额外的线程数。