snpEff如何创建自己的数据库

来源:互联网 发布:阿里云企业登录 编辑:程序博客网 时间:2024/05/13 11:55

snpEff是最常见的vcf格式注释工具,在使用过程中我们常常需要使用自己的数据库进行配置。

一、snpEff提供的可供下载的数据库:

      通过运行以下命令:

      java -jar snpEff.jar databases

      得到可下载的数据库列表,若没有可用的,则需要自己进行编译。

二、编译生成自己的数据库:

(1)修改配置文件snpEff.config,以Citrus物种的Clementina_182文件配置为例:

         gedit snpEff.config,加入以下两行:

         #Citrus genome,version Clementina_182        Clementina_182.genome:Citrus

       保存,并退出。

(2)在snpEff文件夹下创建data文件夹,并在data文件夹下创建genomes和Clementina_182两个文件夹;

         将参考序列文件放在genomes文件夹下,并改名为Clementina_182.fa;

         将gff格式的注释文件放在Clementina_182文件夹下,改名为genes.gff;

         将参考序列的*protein.fa文件放在Clementina_182文件夹下,改名为protein.fa;
(3)回到snpEff目录下,进行build编译:

         java -jar snpEff.jar build -gff3 -v Clementina_182

三、对vcf格式文件进行注释:

      进入到待处理文件test.vcf文件目录下,运行以下命令:

      java -Xmx15g -jar PATHto/snpEff/snpEff.jar Clementina_182 test.vcf > test.eff
      执行完成,在当前目录得到snpEff_genes.txtsnpEff_summary.htmltest.eff三个文件。



0 0