tRNAscan-SE使用说明

来源:互联网 发布:淘宝多久自动好评 编辑:程序博客网 时间:2024/06/06 13:11

1. tRNAscan-SE 简介
tRNAscan-SE 能在基因组水平上进行tRNA扫描。该软件实际上是一个perl 脚本,整合了tRNAscan、EufindRNA 和Cove 这3个独立的tRNA检测软件。tRNAscan-SE 首先调用 tRNAscan和EufindRNA鉴定基因组序列中 tRNA区域,然后调用Cove进行验证。这样既保证了前者的sensitivities, 又保证了后者较低的假阳性概率,同时在搜索速度上提升了很多。
有关tRNAscan-SE 的详细说明,参考其本地化软件包中的 man 文档。
tRNAscan-SE 的网页版:http://lowelab.ucsc.edu/tRNAscan-SE/。但一次最多只能进行5M bp 序列的 tRNA 预测。(我的3M的数据还弄了半天搞不定)
 
2. tRNAscan-SE 本地安装
$ wget http://lowelab.ucsc.edu/software/tRNAscan-SE.tar.gz
##你也可以从http://lowelab.ucsc.edu/tRNAscan-SE/中source code点击下载
$ tar zxf tRNAscan-SE.tar.gz
$cd tRNAscan-SE-1.3.1
 
#首先修改makefile文件,修改里面的内容,你也可以手动修改,上面的命令式将$(HOME)改为/sam/tRNAscanSE
$ perl -p -i -e 's#\$\(HOME\)#/sam/tRNAscanSE#' Makefile


$ make && make install
#测试
$ make testrun
 
#修改环境变量
$ echo 'PATH=$PATH: /sam/tRNAscanSE /bin/' >> ~/.bashrc
$ echo 'PERL5LIB=$PERL5LIB: /sam/tRNAscanSE/bin/' >> ~/.bashrc
$ source ~/.bashrc
 
3. tRNAscan-SE 的使用
常用例子与主要参数:
$ tRNAscan-SE -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta
 
-A 适合于古细菌。该参数选择了古细菌特异性的covariance model(cm),同时稍微放宽了 EufindtRNA 的 cutoffs。
-B 适合于细菌。默认情况下,不选择,-A -B -G 或 -O 参数,则适合于真核生物。
 tRNAscan-SE -B -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta
-G 适合于古细菌,细菌和真核生物的混合序列。该参数使用 general tRNA covariance model。
 tRNAscan-SE -G -o tRNA.out -f rRNA.ss -m tRNA.stats  genome.fasta
-O 适合于线粒体和叶绿体。选择该参数,则仅使用 Cove 进行分析,搜索速度会很慢,同时也不能给出 pseudogenes 检测。
 
-i 使用 Infernal cm analysis only。该参数设置后,需要 cmsearch 命令,但是 tRNAscan-SE 软件包中貌似没有该程序,最终无法运行。
-C 仅使用 Cove 进行 tRNA 分析。虽然从一定程度上提高了准确性,但是会极慢,当然不建议了。
-o 将结果保存到文件。
-f 将 tRNA 的二级结构结果保存到文件
-m 将统计结果保存到文件。
 
4. tRNAscan-SE 的结果说明
生成的有一个统计文件(包含trnascan, eufindtrna and cove). The summary data includes counts of the total number of tRNAs found, the number of tRNA pseudogenes found, number of tRNAs with introns and which anticodons were detected. Finally, the output shows the predicted secondary structure for each identified sequence.  With an additional click on the “View tRNA” button to the right of each tRNA, a two-dimensional representation of the tRNA structure can be displayed, producing the familiar tRNA clover-leaf structure.  The output also displays the overall length of the sequence, the location of the anticodon and the overall tRNAscan-SE score. tRNAscan-SE scores for known tRNA sequences for various species are included on the website to facilitate evaluation of the significance of the score.
 
tRNA.out(-o参数后面生成的文件)
Sequence          tRNA         Bounds     tRNA         Anti  Intron Bounds Cove
Name                          tRNA #     Begin        End  Type Codon  Begin End  Score
--------                 ------ ----    ------ ----    -----  ----- ----    ------
 
Your-seq            1       1       73     Ala   AGC    0        0       74.48
在真核生物中,tRNA 由 RNA 聚合酶III 在核内转录生成 pre-tRNA, 再进行加工生成有功能的 tRNA 分子(特别是一些 tRNA 序列还含有内含子)。若 tRNA 存在内含子,则结果文件中第 7 8 列会给出内含子区间,否则其值为 0 。
tRNAscan-SE 的结果中, 如果 begin 比 end 的值大,则表示 tRNA 在负义链上。有些结果中第5 列为 pseudogene, 这表示其一级或二级结构比较差。最后一列是 Cove Score,该分值最低阈值为 20 。该值是一个 log ratio值。ratio 是符合 tRNA。covariance model概率与随机序列模型概率的比值。当然,最后最好是将表格格式结果转换为 GFF3 结果,以利于在基因组上的可视化
 
tRNA.stats (-m参数后生成的文件)
--------
Overall scan speed: 730.0 bp/sec
tRNAs decoding Standard 20 AA:              1
Selenocysteine tRNAs (TCA):                 0
Possible suppressor tRNAs (CTA,TTA):        0
tRNAs with undetermined/unknown isotypes:   0
Predicted pseudogenes:                      0
                                            -------
Total tRNAs:                                1
tRNAs with introns:                                0
 
Isotype / Anticodon Counts:
Ala   : 1   AGC: 1       GGC:         CGC:         TGC:      
 
------------------------------------------------------------------------
 
Predicted tRNA Secondary Structures(-f rRNA.ss):
Your-seq.trna1 (1-73)              Length: 73 bp
Type: Ala      Anticodon: AGC at 34-36 (34-36)  Score: 74.48
         *    |    *    |    *    |    *    |    *    |    *    |    *    | 
Seq: GGGCGTGTGGCGTAGTCGGTAGCGCGCTCCCTTAGCATGGGAGAGGtCTCCGGTTCGATTCCGGACTCGTCCA
Str: >>>>>.>..>>>>........<<<<.>>>>>.......<<<<<.....>>>>>.......<<<<<<.<<<<<.
 文件中的二级结构使用大于号或小于号表示互补配对区域,使用点号表示环形域或非互补配对区域。

原创粉丝点击