模体发现问题

来源:互联网 发布:如何用淘宝联盟返利 编辑:程序博客网 时间:2024/04/28 11:50

1.模体发现问题

    DNA或蛋白质中具有特定功能且保守的序列片段称为 模体(也是结合位点)。

    由于突变存在,不一定完全保守, 故 实际片段 称为 模体实例。

    这里研究自动模体发现问题:从一组相关的DNA序列集合中将模体和每个序列中的模体实例找出。

2.问题描述

     给定一组含有tDNA序列的集合S={sl,s2, …,st},每序列的长度为n,每条序列si都包含有长度为l的模体m的模体实例m’,在此前提下,寻找出模体m和模体实例集M

3.模体表示方法

    位置权重矩阵(Weight Matrix)方法;

    使用一个用概率表示权重的矩阵描述DNA序列中模体,大小为4×l。

一致(同源)序列(Consensus Sequence)方法。

将序列中每列出现最多的字符提取出来,构成碱基序列

4.植入(l,d)模体问题

  l为模体长度,d为模体与模体实例最大海明距离。(假设每条序列都有且仅有一条模体实例)

  定义l-mer为一个序列的 l长度子串

5.模体发现算法

    基于对模体的表示,模体发现算法分为两类:枚举方法(基于一致序列)和统计方法(基于位置权重矩阵),统计方法如GibbsSample,AlignACE,MEME等,但这些算法通常收敛在一个局部最优解,而不是全局最优解(真正模体),枚举方法会穷尽所有可能模体,然后将最保守的假定模体输出,虽然总能找到模体,但是确实指数级的。

 

 

原创粉丝点击