序列拼装软件：stampy的使用方法

来源：互联网发布：手机淘宝信用等级编辑：程序博客网时间：2024/05/16 08:24

首先大家可以到我的资源里面去下，也可以google“stampy”然后需要填写邮箱等信息，然后给你发链接，然后才能够下载。

我们在linux下首先要某个文件夹下进行解压缩，具体的解压缩方法看上一篇文章。我们这里在学习过程中做一些记录，以便后来翻看。可能要解压两次。

解压好了以后需要到文件夹里面，然后里面有个readme的东西，你读读，安装的方法就是make一下。也就是在目录下，打开命令行，然后输入“make”，然后enter就OK了。

这是软件的安装过程，安装了以后，因为我们希望以后在系统的各个文件夹都可以调用这个软件，所以我们要把这个软件添加到环境变量中。

具体的添加方法如下：

到你的用户名的目录下，我这里是blackstar，然后点击文件夹上方的view——showhidden files，这样就可以看到好多默认为隐藏的文件。然后我们找到 .bashrc这个文件，然后用文本编辑器打开，然后照着添加你的目录到里面就可以了，我添加的内容如下：

PATH=$PATH:/home/blackstar/stampy/stampy-1.0.21

这样就好了，不论以后再系统的那个文件夹中都可以通过命令行使用了。

然后就是使用这个软件进行基因组的拼装。

组装的步骤如下：

第一：要建立参考序列的基因组

stampy.py -G your_give_the_name the_file

但让你可以补充的更完全一些：

./stampy.py -G hg18 /data/genomes/hg18/*.fa.gz

第二：建立一个hash

stampy.py -g your_give_the_name -H the_hash_name #或者如下：

./stampy.py -g hg18 -H hg18     #.表示当前目录，~表示HOME/用户名的目录

第三：你就可以运行斤进行map了；

#!/usr/bin/perl use strict;use warnings; system "stampy.py -g TAIR -h TAIR --solexa -M Mam-1ICE106_b11_EAS517_0011_PEFC30Y1VAAXX.fq -o map.sam"

这里要解释一下：

从后面开始

-o表示的输出，这里我们一般输出的是sam的文件，方便后续的分析。

-o前面是你测序的文件，也就是要map的文件

-M每一行的结尾都要有个-M

--solexa：为什么要用solexa？

这里我们要看一下我们的测序文件，如下：

@EAS517_0011_PEFC30Y1VAAXX:5:1:7:9470#0/1TGACTTAGAGGCGTTCAGTCATAATCCACCCCACGG+hh`hhhOhThThhGJ]HQGQKFOQETVEEJCFGEED@EAS517_0011_PEFC30Y1VAAXX:5:1:9:8560#0/1ACCCATGTAGGCAGCACCCGCGTACATGCCAACTCC+hEKOYQQHGRDeLB_FGWKFBDCPFCFFIdENLEBN@EAS517_0011_PEFC30Y1VAAXX:5:1:10:5770#0/1ACACCAAAAAAAAGTTCACAATCCCATCAATACCCA+Qb^cYWU`GC^QGJDEBBDJDBDKhEDABLCWNFcF@EAS517_0011_PEFC30Y1VAAXX:5:1:10:9490#0/1CAAACATGACAACAAGGCATCTTCGACTTGAAAACA+L^DhbVJGXhXQhOK`EbJLBPEBEMAEKEHKIFED@EAS517_0011_PEFC30Y1VAAXX:5:1:11:11830#0/1CAAGGGATCCGCCGCCCCAGTCGCCGACCGCGCGAG+UDGKhJDJ`fhhYCHMOAFEGSHJEJIACAAXDCCE

这种格式分是四行一个循环：

第一行@开头，也就是一些标志性的信息。

第二行是序列的信息

第三行是序列行的结尾和第四行质量行的开头，也就是第三行作为第二和第四行的一个分界线。

第四行是序列的质量行。这一行是很关键的，她具体描述了每一个碱基的测序质量。我们来看看文件的最后一行吧：

UDGKhJDJ`fhhYCHMOAFEGSHJEJIACAAXDCCE

里面有很多字符，那么他们是怎样表示测序的质量的呢？

这里用了一个策略，也就是用ASCII来代替数字表示质量，我们要知道质量的好坏，首先要把他们换算成数字。

他们的换算规则如下：

首先来解释一下这个表格，这里有三种测序的方法，如果是Sanger standard测序的，那么就在ASCII的基础上减去33，如果是剩下的两种方法测序那么就在ASCII的基础上上减去64，表示的就是测序的质量了，比如说，我们看最后一行第一个是U，我们通过查询，怎么查呢，你可以百度ASCII，结果里有网页工具：如下：

输入U以后你可以看到她代表的十进制是85，那么测序的质量就是ASCII-33或者是64得出的结果，结果越小测序就越差，反之相反。

我们这里是solexa，所以选择--solexa。

最后就等这结果出来就好了。