A Classification approach for DNA methylation profiling with bisulfite next-generation sequenc data

来源:互联网 发布:淘宝买的官换机可靠吗 编辑:程序博客网 时间:2024/06/06 06:51

简介:本篇博客主要是对文章<A Classification approach for DNA methylation profiling with bisulfite next-generation sequenc data>的个人理解(-.-基本上就算是翻译+个人感受偷笑),在理解作者论文概要和算法核心思想的基础上,和大家一同看看分类方法在序列数据上的应用,因为博主是在半沉睡状态写的博客有不妥之处,请大家海涵,可以留言一起探讨。

1.Motivation:

随着高通量测序技术的产生,基于重亚硫酸盐处理技术的DNA甲基化分析方法已经成为一种特别理想的方法,由于其基于单碱基解决方法和其全基因组的覆盖。然而,数理统计分析方法并没有很好的应用在分析这一类甲基化数据上。尽管被广泛应用的基于比例评估的方法既简单又直观,但是并没有统计的精确和充分在处理充满各种噪音源的BS-seq时。而且,在应用到二元甲基化状态调用方面在生物学上并不令人满意。

2.Result:

本文中,作者使用一种混合二项式模型去描绘BS-Seq 数据的特征,然后以这种模型为基础,作者提出一种基于分类的策略,称为甲基化状态调度策略(MSC),从而完成二元甲基化状态调用。这种二元甲基化状态调用方法是理想的,它依据最大化全局正确分配率,和错误发现率(FDR),以及被此方法评估的错误未发现率(FNDR)。为了控制错误发现率在给定的范围内,作者又进一步设计开发了一种在甲基化状态调用中的错误发现率控制策略,它是将一种基于局部错误发现率的适应性过程和甲基化状态调用方法结合。通过模拟学习和真实数据的应用来验证这方法策略的表现。通过模拟学习显示MSC的FDR和FNDR的评估是恰当的。模拟学习同时证明了这种控制错误发现率的MSC是有效的在控制错误发现率在某一个预先设定的水平线上,而且它比传统的二项式测试策略强大。在真实数据应用中,MSC显示了其FDR约为0.1426,FNDR约为0.0067。全局正确分配率大于0.97。

OK,看完了文章大概的动机,以及作者最终呈现的结果,现在让我们一起来回顾下这篇文章,看看到底作者是如何想到这些方法和策略,一起来探讨其方法的优劣。

一、Abstract

DNA甲基化是重要的表观遗传学修饰之一,以往研究表明,DNA甲基化在细胞发育和分化、调控基因表达、X染色体失活、基因沉默、疾病的发生等方面扮演着重要的角色。(甲基化背景知识可以查看我另一篇博客)研究发现在哺乳动物中CPG富集区(CG富集)60-90%容易被甲基化,同时小于3%的非CPG区域容易被甲基化。在DNA序列中非甲基化的CPG区域倾向于聚类到一小片区域称为CPG岛,而且其大多数唯一基因的启动子中。这种不规则的DNA甲基化模式和癌症的联系很紧密。首先,广泛的低甲基化是和基因的不稳定性相联系的,同时这也是癌症细胞的共同特征。再次,位于基因启动子的CPG岛的超甲基化状态也在癌症细胞中被发现。因此,研究细胞全基因范围和启动子中的甲基甲化模式是很重要的。

在过去20年,在全基因组水平下去探测DNA甲基化状态的许多方法已经被开发应用。它们大致分为3种类型,分别有基于甲基化敏感酶的方法、基于富集区域的方法、和基于重亚硫酸转换的方法(BS于2010年)。在过去,阵列技术,比如微阵列技术,结合以上三种方法来发掘甲基化状态是处于领导地位的平台。然而伴随着高通量技术的产生和发展,其展现出更大的优点相对于微阵列技术而言。尽管如此,高通量测序和以上三种方法结合任然有不少的缺点,比如(甲基化敏感酶方法与NGS结合对于结合为位点的特殊酶的使用任然有严格的限制、基于富集区域的方法任然不能克服其不稳健性等),另一方面,基于重亚硫酸转换的方法被认为是最理想的方法,因为其在单碱基水平下评测了全基因组范围内的DNA甲基化水平。(这就是作者为什么研究点放在BS-seq的原因吧?)在所有的重亚硫酸测序方法中,MethylC-Seq和RRBS(reduced representation bisulfite sequencing)是当前最流行的方法。(来自本人WIKI百科的查询:MethylC-Seq(directional) 测序结果只有两条original reads (BSW 和 BSC); BS-Seq(non-directional)测序结果包括四条reads( BSW, BSC以及它们分别的互补链BSWRC和BSCRC).计算基因组DNA甲基化有BSW和BSC的信息就可以了,BSWRC与BSCRC这两条序列的数据会给我们的结果带来什么好处呢?


MethylC-Seq方法中,DNA首先被处理成小的片段,通过对其末端修复和连接,这些片段被认为是使用重亚硫酸技术处理了。这种处理使得未甲基化的胞嘧啶转换成尿嘧啶,而那些甲基化胞嘧啶保持不变,然后用PCR扩增方法使得尿嘧啶被胸腺嘧啶代替。(如上图)这些结果PCR扩增的片段将被视为标准序列片段来产生短的序列读段,然后将其映射到相关基因。(因为测序技术或者说产生read技术不是我们关注的重点,所以可以认为在俩种较好的方式下产生了read),然后非甲基化的胞嘧啶和甲基化胞嘧啶可以通过检测序列读段分辨。RRBS使用的方法和MethylC-Seq差不多,他们的最大差异是在第一步处理上(用酶技术让DNA基因组切成一段段区域)。因为不是我们关注的重点,我就不加赘述,只需记住俩种不同的方式是针对不同的研究方向。

理想的情况下,以上俩种方法处理过后的数据,在胞嘧啶位置上根据其甲基化状态应该经过PCR扩增只对应胞嘧啶或者胸腺嘧啶,然后由于数据中有大量噪音,这两种方法产生的数据将无法达到以上所说的预期,这就造出了我们无法正确的推断其甲基化状态。从而依赖于序列上C读段和T读段的数量来推测目标位置C的甲基化状态变成了一个有趣问题。(作者后来噼里啪啦提出了现有的对C甲基化状态的研究的方法和缺点,目的就是说自己方法更好偷笑)

在这篇论文中,作者用了一种基于混合二项式模型的分类方法去完成二元甲基化状态调度。同时作为一中附属产物,由此过程产生的模型可以用来测量甲基化水平。而且这种方法兼顾考虑了正确分配率、FDR和FNDR。作者将局部错误控制方法和这种恰当的分类模型结合使得其可以控制FDR在给定的范围内,而其分类模型是基于贝叶斯的思想最大化了方法的正确分配率。文章第二部分主要详细介绍了二项式模型和分类方法,然后在许多方面显示了这种方法的表现(有点)。在第二部分最后部分,介绍了FDR-control方法。第三部分主要是介绍这种模型在模拟实验和真实数据上的结果。

二.Methods

正如Section1所讨论的那样,MethylC-Seq实验可以几乎包含了95%的CpG区域,那些不包含任何C与T的区域将被排除在甲基化调度分析中。




0 0