Variant Call Format (VCF) 笔记

来源:互联网 发布:秦舞阳13岁杀人知乎 编辑:程序博客网 时间:2024/06/16 09:48
#CHROM POS     ID        REF    ALT     QUAL FILTER INFO                              FORMAT      NA00001        NA00002        NA00003    14370   rs6054257 G      A       29   PASS   NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,. 



1. CHROM - chromosome:

2. POS - position: 

3. ID - identifier: 如果call出来的SNP存在于dbSNP数据库里,就会显示相应的dbSNP里的rs编号;若没有,则用’.’表示其为一个novel variant。

4. REF - reference base(s): Can be  A,C,G,T,N (case insensitive).

5. ALT - alternate base(s):

6. QUAL - quality: Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大。Phred值Q = -10 * lg (1-p) ,p为variant存在的概率。当Q=20时,错误率就控制在了0.01。 

7. FILTER - filter status: 'PASS' if this position has passed all filters, '.'If filters have not been applied.

8. INFO - additional information:

DP : combined depth across samples

FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值。该值越小越好。一般进行filter的时候,可以设置 FS < 10~20。

MQ: RMS(均方根值) Mapping Quality

ReadPosRankSum: Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.

AN : total number of alleles in called genotypes.

9 Genotype fields:

GT : genotype. The allele values are 0 for the reference allele (what is in the REF field), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on. (for example ‘./.’ for a diploid genotype and ‘.’ for haploid genotype)

AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。

DP : read depth at this position for this sample (Integer)

GQ: 表示最可能的基因型的质量值。表示的意义同QUAL。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。

PL:对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。这三种指定的基因型(0/0,0/1,1/1)的概率总和为1。如果转换成支持该基因型概率(P)的话,由于L=-10lgP,那么P=10^(-L/10),因此,当L值为0时,P=10^0=1。因此,这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。


原创粉丝点击