CAZyme注释

来源：互联网发布：信托网络个人理财产品编辑：程序博客网时间：2024/04/30 23:49

CAZyme的数据来源于CAZyDB：www.cazy.org;

对CAZyme的注释主要使用dbCAN：http://csbl.bmb.uga.edu/dbCAN/。

对CAZyme的注释步骤如下：

1. 从dbCAN中下载HMMs数据库

打开dbCAN网站的Download页面。下载其中的3个文件：all.hmm.ps.len，dbCAN-fam-HMMs.txt，hmmscan-parser.sh。

wget http://csbl.bmb.uga.edu/dbCAN/download/all.hmm.ps.len

wget http://csbl.bmb.uga.edu/dbCAN/download/dbCAN-fam-HMMs.txt

wget http://csbl.bmb.uga.edu/dbCAN/download/hmmscan-parser.sh

chmod 755 *.sh

##all.hmm.ps.len 为所有CBM蛋白模型的长度

## dbCAN-fam-HMMs.txt所有相关蛋白的马尔科夫数据库（每个蛋白一个结构），HMMsfor 333 dbCAN families (330 CAZyme families + 3 cellulosomemodules)

## hmmscan-parser.sh用于过滤结果的一个脚本

2. 下载hmmer软件

从http://hmmer.org/下载hmmer3.0并安装。

wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz

tar zxf hmmer-3.0.tar.gz

cd hmmer-3.0

./configure

make

sudo make install

export PATH=$PATH:filepath

3. 对目的蛋白质序列进行注释

目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为

$ hmmpress dbCAN-fam-HMMs.txt

##对数据库的处理，以后分析就下面的两步了

$ hmmscan dbCAN-fam-HMMs.txtspecies_protein.fasta > CAZyme.dbCAN

$ hmmscan-parser.sh CAZyme.dbCAN > CAZyme.annot

4. 结果文件

默认的设置下，hmmscan-parser.sh对hmmer结果进行了过滤。阈值：如果比对长度>80aa,则E_value<1e-5,否则E_value<1e-3;同时对HMM模型的覆盖度的比例>0.3

CAZyme_species.annot的文件内容如下：

scaffold_1.30 GH28.hmm 1.5e-589 308 60 361 0.92

scaffold_1.30.1GH28.hmm 1.5e-589 308 60 361 0.92

scaffold_1.90 GT32.hmm 1.2e-232 87 81 161 0.944444444444444

scaffold_1.94 GH18.hmm 3.5e-645 288 127 486 0.956081081081081

scaffold_10.18 GH105.hmm 1.1e-8414 332 49 392 0.957831325301205

scaffold_10.20 CBM1.hmm 9.1e-141 29 26 54 0.96551724137931

scaffold_100.3 GT15.hmm 4.5e-126 1 272 75 345 0.992673992673993

scaffold_100.3.1 GT15.hmm 5.4e-105 1 240 75 313 0.875457875457875

scaffold_100.4 GT15.hmm 1.4e-128 1 272 70

每一列的描述为：蛋白质序列名称，所属家族，E-value，hmm模型匹配起始，hmm模型的匹配结束，查询序列起始，查询序列结束，覆盖度。

这里面还是有几条序列是重名的，也就是没有确定这个序列到底归属于哪一个hmm、但你仔细看一下就发现，尽管一条序列可能匹配上好几个Hmm，但是是不同区段匹配上的，所以结果仍然被保留了。

根据所属的家族可以在 http://www.cazy.org/网页上搜相关的信息，以及该家族所归属的EC.

** if you want to run dbCAN CAZyme annotation on your local linux computer, do the following:** 1. download dbCAN-fam-HMMs.txt, hmmscan-parser.sh and all.hmm.ps.len** 2. download HMMER 3.0 package [hmmer.org] and install it properly** 3. format HMM db: hmmpress dbCAN-fam-HMMs.txt** 4. run: hmmscan dbCAN-fam-HMMs.txt yourfile > yourfile.out** 5. run: sh hmmscan-parser.sh yourfile.out > yourfile.out.ps (if alignment > 80aa, use E-value < 1e-5, otherwise use E-value < 1e-3; covered fraction of HMM > 0.3)

Practise：

hmmpress dbCAN-fam-HMMs.txt

hmmscan dbCAN-fam-HMMs.txt aa_fasta >out

./hmmscan-parser.sh out > out_hmm.annot

0 0