snpeff使用
来源:互联网 发布:解放战争国民党知乎 编辑:程序博客网 时间:2024/05/01 13:42
这个软件比较重要,尤其是对做遗传变异相关研究的,很多人做完了snp-calling后喜欢用ANNOVAR来进行注释,但是那个注释还是相对比较简单,只能得到该突变位点在基因的哪个区域,那个基因这样的信息,如果想了解更具体一点,就需要更加功能化的软件了,snpEFF就是其中的佼佼者,而且是java平台软件,非常容易使用!而且它的手册写的非常详细:http://snpeff.sourceforge.net/SnpEff_manual.html
官网是:http://snpeff.sourceforge.net/
1 889455 . G A . . ## 假设我们的vcf文件里面记录的突变是这个,那么我们可以用snpEFF进行注释,注释得到的信息非常完全!
信息用|符号分割,所有很容易用脚本提取需要的信息
ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T|||||351|,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)
包括突变类型是:non_coding_exon_variant
突变在各种转录本上面,在每个转录本的第几个碱基呀,哪个氨基酸的改变呀,氨基酸第几位呀!
标准突变表示形式是:
突变发生在NOC2L这个基因上面,它的ensembl 数据库ID是ENSG00000188976
其余的看头文件自己慢慢理解:
“Functional annotations: ‘Allele | Annotation | Annotation_Impact | Gene_Name | Gene_ID | Feature_Type | Feature_ID | Transcript_BioType | Rank | HGVS.c | HGVS.p | cDNA.pos / cDNA.length | CDS.pos / CDS.length | AA.pos / AA.length | Distance | ERRORS / WARNINGS / INFO’
软件安装:
选择最新版软件下载:https://sourceforge.net/projects/snpeff/files/
wget https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
因为是java软件,unzip 解压之后就可以直接使用,当然前提是你有java平台。
输入数据:
首先下载用来做注释的数据库:java -jar snpEff.jar download GRCh37.75(自己选择需要的版本)
软件下载很快,但是数据库下载就需要一定时间啦,去喝杯咖啡吧。
然后软件本身会提供example文件,里面就是一堆各种各样的vcf数据,而且还提供了运行命令,非常简单(examples.sh) ,这些就是我们的输入数据啦!
运行命令:
运行也很简单:java -Xmx4G -jar snpEff.jar -i vcf -o vcf GRCh37.75 example.vcf > example_snpeff.vcf
指定输入输出格式都是vcf,然后指定刚才下载的必备数据库,然后输入输出文件即可!
也可以调用全路径,如果你写在脚本里面的话!
java -Xmx4G -jar path/to/snpEff/snpEff.jar \
-c path/to/snpEff/snpEff.config \
GRCh37.69 \
path/to/example.vcf > example_snpeff.vcf
结果解读:
这个非常复杂,对结果理解了多少,就是我们对软件理解了多少。
具体大家看readme吧,注释信息太多了,按需索取:
- chromosome_number_variation
- exon_loss_variant
- frameshift_variant
- stop_gained
- stop_lost
- start_lost
- splice_acceptor_variant
- splice_donor_variant
- rare_amino_acid_variant
- missense_variant
- inframe_insertion
- disruptive_inframe_insertion
- inframe_deletion
- disruptive_inframe_deletion
- 5_prime_UTR_truncation+exon_loss_variant
- 3_prime_UTR_truncation+exon_loss
- splice_branch_variant
- splice_region_variant
- splice_branch_variant
- stop_retained_variant
- initiator_codon_variant
- synonymous_variant
- initiator_codon_variant+non_canonical_start_codon
- stop_retained_variant
- coding_sequence_variant
- 5_prime_UTR_variant
- 3_prime_UTR_variant
- 5_prime_UTR_premature_start_codon_gain_variant
- upstream_gene_variant
- downstream_gene_variant
- TF_binding_site_variant
- regulatory_region_variant
- miRNA
- custom
- sequence_feature
- conserved_intron_variant
- intron_variant
- intragenic_variant
- conserved_intergenic_variant
- intergenic_region
- coding_sequence_variant
- non_coding_exon_variant
- nc_transcript_variant
- gene_variant
- chromosome
http://snpeff.sourceforge.net/VCFannotationformat_v1.0.pdf
本文固定链接: http://www.bio-info-trainee.com/1594.html | 生信菜鸟团
#################################
1, download
$ wget https://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
2, $unzip snpEff_latest_core.zip
3, 配置hg19基因组$./java -jar snpEff.jar -v hg19
java版本需要1.7+
(Exception in thread "main" java.lang.UnsupportedClassVersionError: org/snpeff/SnpEff : Unsupported major.minor version 51.0)
参考/examples/的例子进行练习,
$ ./java -Xmx4g -jar snpEff.jar -v -classic -cancer -cancerSamples examples/samples_cancer_one.txt hg19 examples/variants_2.vcf > variants_2.ann.vcf
##
input_vcf格式(参考VCF格式详解):
1 889455 . G A . . .
output_vcf格式:
##SnpEffVersion="4.1 (build 2015-01-07), by Pablo Cingolani"
##SnpEffCmd="SnpEff testHg3775Chr1 examples/variants_1.vcf "
##INFO=<ID=ANN,Number=.,Type=String,Description="Functional annotations: 'Allele | Annotation | Annotation_Impact | Gene_Name | Gene_ID | Feature_Type | Feature_ID | Transcript_BioType | Rank | HGVS.c | HGVS.p | cDNA.pos / cDNA.length | CDS.pos / CDS.length | AA.pos / AA.length | Distance | ERRORS / WARNINGS / INFO' ">
##INFO=<ID=LOF,Number=.,Type=String,Description="Predicted loss of function effects for this variant. Format: 'Gene_Name | Gene_ID | Number_of_transcripts_in_gene | Percent_of_transcripts_affected' ">
##INFO=<ID=NMD,Number=.,Type=String,Description="Predicted nonsense mediated decay effects for this variant. Format: 'Gene_Name | Gene_ID | Number_of_transcripts_in_gene | Percent_of_transcripts_affected' ">
1 889455 . G A.. ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T|||||351|,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)
- snpeff使用
- 使用SnpEff 对SNP结果进行分析
- snpEff如何创建自己的数据库
- 使用
- 使用
- 使用
- 使用
- 使用
- 使用
- 使用++,--
- 使用$@ $!
- 使用
- SoftICE使用(指令使用)
- 使用GraphEdit使用
- 使用HtmlParser使用心得
- 时钟使用使用
- Ubuntu 使用Git 使用
- Ubuntu 使用Git 使用
- Intel WebRTC之woogeen_config.js文件内容示例
- 您可能没有权限使用网络资源,请与这台服务器的管理员联系以查明是否有访问权限
- 报错 Only one AsyncAnnotationBeanPostProcessor may exist within the context.
- 哈希算法的学习
- Alamofire
- snpeff使用
- android 阅读笑话及搞笑图片的 app
- win32画正弦曲线
- week1_day2_1108
- 报错 Could not obtain transaction-synchronized Session for current thread
- OkHttpUtils-2.0.0 升级后改名 OkGo,全新完美支持RxJava,比Retrofit更简单易用
- Java Web路径跳转
- Eclipse Maven构建WebApp项目资源目录显示不全的原因与解决方式
- JavaSE:3min讲解匿名内部类的使用