CAZyme注释

来源:互联网 发布:信托网络个人理财产品 编辑:程序博客网 时间:2024/04/30 23:49
CAZyme的数据来源于CAZyDB:www.cazy.org;

对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。

对CAZyme的注释步骤如下:

1. 从dbCAN中下载HMMs数据库

打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。

wget http://csbl.bmb.uga.edu/dbCAN/download/all.hmm.ps.len

 wget http://csbl.bmb.uga.edu/dbCAN/download/dbCAN-fam-HMMs.txt

 wget http://csbl.bmb.uga.edu/dbCAN/download/hmmscan-parser.sh

chmod 755 *.sh

 

##all.hmm.ps.len 为所有CBM蛋白模型的长度

## dbCAN-fam-HMMs.txt所有相关蛋白的马尔科夫数据库(每个蛋白一个结构),HMMsfor 333 dbCAN families (330 CAZyme families + 3 cellulosomemodules)

## hmmscan-parser.sh用于过滤结果的一个脚本

2. 下载hmmer软件

从http://hmmer.org/下载hmmer3.0并安装。

wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz

 tar zxf hmmer-3.0.tar.gz

cd hmmer-3.0

./configure

make

sudo make install

export PATH=$PATH:filepath

3. 对目的蛋白质序列进行注释

目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为

$ hmmpress dbCAN-fam-HMMs.txt

##对数据库的处理,以后分析就下面的两步了

$ hmmscan dbCAN-fam-HMMs.txtspecies_protein.fasta > CAZyme.dbCAN

$ hmmscan-parser.sh CAZyme.dbCAN > CAZyme.annot

4. 结果文件

   默认的设置下,hmmscan-parser.sh对hmmer结果进行了过滤。阈值:如果比对长度>80aa,则E_value<1e-5,否则E_value<1e-3;同时对HMM模型的覆盖度的比例>0.3

CAZyme_species.annot的文件内容如下:

scaffold_1.30  GH28.hmm       1.5e-589      308    60     361    0.92

scaffold_1.30.1GH28.hmm       1.5e-589      308    60     361    0.92

scaffold_1.90  GT32.hmm       1.2e-232      87     81     161    0.944444444444444

scaffold_1.94  GH18.hmm       3.5e-645      288    127    486    0.956081081081081

scaffold_10.18 GH105.hmm      1.1e-8414     332    49     392    0.957831325301205

scaffold_10.20 CBM1.hmm       9.1e-141      29     26     54     0.96551724137931

scaffold_100.3 GT15.hmm       4.5e-126            272    75     345    0.992673992673993

scaffold_100.3.1       GT15.hmm       5.4e-105            240    75     313    0.875457875457875

scaffold_100.4 GT15.hmm       1.4e-128            272    70

每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。

这里面还是有几条序列是重名的,也就是没有确定这个序列到底归属于哪一个hmm、但你仔细看一下就发现,尽管一条序列可能匹配上好几个Hmm,但是是不同区段匹配上的,所以结果仍然被保留了。


根据所属的家族可以在 http://www.cazy.org/网页上搜相关的信息,以及该家族所归属的EC.

** if you want to run dbCAN CAZyme annotation on your local linux computer, do the following:** 1. download dbCAN-fam-HMMs.txt, hmmscan-parser.sh and all.hmm.ps.len** 2. download HMMER 3.0 package [hmmer.org] and install it properly** 3. format HMM db: hmmpress dbCAN-fam-HMMs.txt** 4. run: hmmscan dbCAN-fam-HMMs.txt yourfile > yourfile.out** 5. run: sh hmmscan-parser.sh yourfile.out > yourfile.out.ps (if alignment > 80aa, use E-value < 1e-5, otherwise use E-value < 1e-3; covered fraction of HMM > 0.3)

Practise:

hmmpress dbCAN-fam-HMMs.txt

hmmscan dbCAN-fam-HMMs.txt aa_fasta >out

./hmmscan-parser.sh out > out_hmm.annot


0 0
原创粉丝点击