GATK best practices对variation(only for SNPs and Indels)的鉴定以及对上游数据对处理

来源:互联网 发布:python 延时 编辑:程序博客网 时间:2024/05/22 18:56

借助网上的图用下,表表意思(只需要看图和粗体字,小字不用注意):



看完图来说话,其实你看我这篇文章,目的就是想看gatk best practices 分析的全过程,按先后顺序,给你好看。

  • 预处理过程,开始于raw data,可以上fq,也可以上uBAM,并最终产生一个用于call variantion 的bam文件。预处理过程是纠正技术带来的偏差,使数据更适用于变异检出分析。
  • 预处理过程之Map to Reference ::::  map reads到参考基因组上,使用bwa比对dna数据,你还需要根据genomic coordinate 来sort后到bam,默认到sort不行滴(工具可以用piCard的SortSam ,参数SORT_ORDER 要用coordinate,当然,也可以在比对步骤上直接加上这个参数,可以少打好些个字母对吧,懒是我们长大翻身后应该发扬的美德)。当然啦,如果你的数据是rna的话,要用STAR来做map,怎么搞的话,看STAR的官网吧,这玩意不是gatk提供的工具。(玩意的发音,我们平时都说玩意儿对吧?我去年看还珠格格的时候,那个皇后,一直说的说玩意YIYIYIYI第四声,看还珠格格十七年,才注意到这个噱头!我以后也可以学她说话嘛)
  • 预处理过程之 Mark Duplication ::::  完成与参考基因组的比对之后,可以做重复标记啦!为什么要做重复标记呢?因为后面call variant 时,bam文件中重复的reads是没用的,也就是说,重复多少不是变异检出的有效信息。所以,就在bam中做一下标记,标记为duplication,这样的话,后面gatk的变异检出工具识别到重复的reads,就直接过滤掉带有重复标记的信息,无视它啦。大多数gatk的变异检出工具内部都带有一个 read filter应用,这个应用默认执行。如果你不想执行,说可以自己设置命令告诉它让它不执行的,比如,你需要做不同等位基因的表达分析的时候啦!我不是最可爱的,都不爱我,这一步使用的是piCard里面的工具,也不是gatk的工具。
  • 预处理过程之 Split'N'trim ,这一步是对RNA数据的剪切位点的处理,我没做过。dna数据不需要这一步。
  • 预处理过程之Realign Indels    ::::a) bwa aln 比对结果可能产生一种假象,即真实的 indel 导致比对结果是几个 mismatch,导致变异检测时可能误认为是 snp。b) 该步骤用来确定这种现象和区域,计算最优的一致的序列,然后进行重比对。c) 当变异检测工具是碱基位置时(UnifinedGenotyper),该步骤可以减少 snp的假阳性及 indel 的假阴性情况。当变异检测是基于局部重组装的工具( HaplotypeCaller)) ,这一步不用做。(如果我理解错了,请你告诉我,我的联系方式是153,822,9511。)
  • 预处理过程之• Recalibrate Bases ::: 使用机器学习的方法,仿真模拟质量值产生模型,校正仪器产生的质量值。
  • VARIANT DISCOVERY( call and filter)
    • Call Variants :GATK—UnifiedGenotyper , snp indels各一个模型,( --genotype_likelihoods_model BOTH)。GATK--HaplotypeCaller, 可以对活跃区域的单倍体局部组装(单倍体局部组装算法),体现在 call indel 时表现较好。
  • HaplotypeCaller --GVCF 模式:
    1. HaplotypeCaller 运行每个样本数据,生成一个基因组的中间文件 gVCF,( 当有几百
    个样本的 gVCF 时,可以使用 CombineGVCFs 合并起来,供下一步程序处理。)
    2. 然后将 gVCF 传送给共享基因型工具 genotypeGVCFs 产生 indel 和 snp。
  • Filtering :
    1. 变异质量值校正 VQSR (variant quality score recalibration)
    2. 机器学习法识别,要求变异检测结果要大,至少 30 个外显子 and /or 至少 一个全基因组
    3. 工具:
    VariantFiltration
    VariantRecalibrator
    ApplyRecalibration
  • (未完待续)
  • Note:2016年中,有一篇文章关于测试碱基校正对变异检测质量的影响的文章,文章表示,该步骤对检测质量几乎没有影响,而且耗时耗内存较多,可以舍弃。然后没过多久,GATK Best Practice就去掉了这几个步骤。目前瘦身的GATK跑起来就几步,很爽。)


0 0
原创粉丝点击