序列拼装软件:stampy的使用方法

来源:互联网 发布:手机淘宝信用等级 编辑:程序博客网 时间:2024/05/16 08:24

首先大家可以到我的资源里面去下,也可以google“stampy”然后需要填写邮箱等信息,然后给你发链接,然后才能够下载。

我们在linux下首先要某个文件夹下进行解压缩,具体的解压缩方法看上一篇文章。我们这里在学习过程中做一些记录,以便后来翻看。可能要解压两次。

解压好了以后需要到文件夹里面,然后里面有个readme的东西,你读读,安装的方法就是make一下。也就是在目录下,打开命令行,然后输入“make”,然后enter就OK了。

这是软件的安装过程,安装了以后,因为我们希望以后在系统的各个文件夹都可以调用这个软件,所以我们要把这个软件添加到环境变量中。

具体的添加方法如下:

到你的用户名的目录下,我这里是blackstar,然后点击文件夹上方的view——showhidden files,这样就可以看到好多默认为隐藏的文件。然后我们找到  .bashrc这个文件,然后用文本编辑器打开,然后照着添加你的目录到里面就可以了,我添加的内容如下:

PATH=$PATH:/home/blackstar/stampy/stampy-1.0.21

这样就好了,不论以后再系统的那个文件夹中都可以通过命令行使用了。

然后就是使用这个软件进行基因组的拼装。

组装的步骤如下:

第一:要建立参考序列的基因组

stampy.py -G your_give_the_name the_file 
但让你可以补充的更完全一些:

./stampy.py -G hg18 /data/genomes/hg18/*.fa.gz

第二:建立一个hash

stampy.py -g your_give_the_name -H the_hash_name #或者如下:
./stampy.py -g hg18 -H hg18     #.表示当前目录,~表示HOME/用户名的目录

第三:你就可以运行斤进行map了;

#!/usr/bin/perl use strict;use warnings; system "stampy.py -g TAIR -h TAIR --solexa -M Mam-1ICE106_b11_EAS517_0011_PEFC30Y1VAAXX.fq -o map.sam"  

这里要解释一下:

从后面开始

-o表示的输出,这里我们一般输出的是sam的文件,方便后续的分析。

-o前面是你测序的文件,也就是要map的文件

-M每一行的结尾都要有个-M

--solexa:为什么要用solexa?

这里我们要看一下我们的测序文件,如下:

@EAS517_0011_PEFC30Y1VAAXX:5:1:7:9470#0/1TGACTTAGAGGCGTTCAGTCATAATCCACCCCACGG+hh`hhhOhThThhGJ]HQGQKFOQETVEEJCFGEED@EAS517_0011_PEFC30Y1VAAXX:5:1:9:8560#0/1ACCCATGTAGGCAGCACCCGCGTACATGCCAACTCC+hEKOYQQHGRDeLB_FGWKFBDCPFCFFIdENLEBN@EAS517_0011_PEFC30Y1VAAXX:5:1:10:5770#0/1ACACCAAAAAAAAGTTCACAATCCCATCAATACCCA+Qb^cYWU`GC^QGJDEBBDJDBDKhEDABLCWNFcF@EAS517_0011_PEFC30Y1VAAXX:5:1:10:9490#0/1CAAACATGACAACAAGGCATCTTCGACTTGAAAACA+L^DhbVJGXhXQhOK`EbJLBPEBEMAEKEHKIFED@EAS517_0011_PEFC30Y1VAAXX:5:1:11:11830#0/1CAAGGGATCCGCCGCCCCAGTCGCCGACCGCGCGAG+UDGKhJDJ`fhhYCHMOAFEGSHJEJIACAAXDCCE
这种格式分是四行一个循环:

第一行@开头,也就是一些标志性的信息。

第二行是序列的信息

第三行是序列行的结尾和第四行质量行的开头,也就是第三行作为第二和第四行的一个分界线。

第四行是序列的质量行。这一行是很关键的,她具体描述了每一个碱基的测序质量。我们来看看文件的最后一行吧:

UDGKhJDJ`fhhYCHMOAFEGSHJEJIACAAXDCCE
里面有很多字符,那么他们是怎样表示测序的质量的呢?

这里用了一个策略,也就是用ASCII来代替数字表示质量,我们要知道质量的好坏,首先要把他们换算成数字。

他们的换算规则如下:


首先来解释一下这个表格,这里有三种测序的方法,如果是Sanger standard测序的,那么就在ASCII的基础上减去33,如果是剩下的两种方法测序那么就在ASCII的基础上上减去64,表示的就是测序的质量了,比如说,我们看最后一行第一个是U,我们通过查询,怎么查呢,你可以百度ASCII,结果里有网页工具:如下:


输入U以后你可以看到她代表的十进制是85,那么测序的质量就是ASCII-33或者是64得出的结果,结果越小测序就越差,反之相反。

我们这里是solexa,所以选择--solexa。


最后就等这结果出来就好了。