CAZyme注释
来源:互联网 发布:信托网络个人理财产品 编辑:程序博客网 时间:2024/04/30 23:49
对CAZyme的注释主要使用dbCAN:http://csbl.bmb.uga.edu/dbCAN/。
对CAZyme的注释步骤如下:
1. 从dbCAN中下载HMMs数据库
打开dbCAN网站的Download页面。下载其中的3个文件:all.hmm.ps.len,dbCAN-fam-HMMs.txt,hmmscan-parser.sh。
wget http://csbl.bmb.uga.edu/dbCAN/download/all.hmm.ps.len
wget http://csbl.bmb.uga.edu/dbCAN/download/dbCAN-fam-HMMs.txt
wget http://csbl.bmb.uga.edu/dbCAN/download/hmmscan-parser.sh
chmod 755 *.sh
##all.hmm.ps.len 为所有CBM蛋白模型的长度
## dbCAN-fam-HMMs.txt所有相关蛋白的马尔科夫数据库(每个蛋白一个结构),HMMsfor 333 dbCAN families (330 CAZyme families + 3 cellulosomemodules)
## hmmscan-parser.sh用于过滤结果的一个脚本
2. 下载hmmer软件
从http://hmmer.org/下载hmmer3.0并安装。
wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz
cd hmmer-3.0
./configure
make
sudo make install
export PATH=$PATH:filepath
3. 对目的蛋白质序列进行注释
目的蛋白质序列常常是全基因组的预测蛋白。比如其文件名为species_protein.fasta.CAZyme注释过程为
$ hmmpress dbCAN-fam-HMMs.txt
##对数据库的处理,以后分析就下面的两步了
$ hmmscan dbCAN-fam-HMMs.txtspecies_protein.fasta > CAZyme.dbCAN
$ hmmscan-parser.sh CAZyme.dbCAN > CAZyme.annot
4. 结果文件
CAZyme_species.annot的文件内容如下:
scaffold_1.30
scaffold_1.30.1GH28.hmm
scaffold_1.90
scaffold_1.94
scaffold_10.18
scaffold_10.20
scaffold_100.3
scaffold_100.3.1
scaffold_100.4
每一列的描述为:蛋白质序列名称,所属家族,E-value,hmm模型匹配起始,hmm模型的匹配结束,查询序列起始,查询序列结束,覆盖度。
这里面还是有几条序列是重名的,也就是没有确定这个序列到底归属于哪一个hmm、但你仔细看一下就发现,尽管一条序列可能匹配上好几个Hmm,但是是不同区段匹配上的,所以结果仍然被保留了。
根据所属的家族可以在
** if you want to run dbCAN CAZyme annotation on your local linux computer, do the following:** 1. download dbCAN-fam-HMMs.txt, hmmscan-parser.sh and all.hmm.ps.len** 2. download HMMER 3.0 package [hmmer.org] and install it properly** 3. format HMM db: hmmpress dbCAN-fam-HMMs.txt** 4. run: hmmscan dbCAN-fam-HMMs.txt yourfile > yourfile.out** 5. run: sh hmmscan-parser.sh yourfile.out > yourfile.out.ps (if alignment > 80aa, use E-value < 1e-5, otherwise use E-value < 1e-3; covered fraction of HMM > 0.3)
Practise:
hmmpress dbCAN-fam-HMMs.txt
hmmscan dbCAN-fam-HMMs.txt aa_fasta >out
./hmmscan-parser.sh out > out_hmm.annot