论文笔记【Local-DPP: An improved DNA-binding protein prediction method by exploring local evolutionary】

来源:互联网 发布:服务器坏了 raid 数据 编辑:程序博客网 时间:2024/05/29 17:58

预测DNA结合蛋白——Feature representation algorithm 


提出一种新奇的特征表达算法,能够有效的提取PSSM的局部特征。

首先分块PSSMs成大小相等的子矩阵,对每一部分提取局部特征。

最后结合全部的特征。分类算法:随机森林(Random Forest)


Position-specific scoring matrix (PSSM). 位置特异性得分矩阵


假定一个蛋白质序列S,长度为L,则其可表达为S1S2. . . SL ,Si(1iL) 代表S的第i个位置的氨基酸。

例如S = ATFEIVNRCSYTVWAAASKGDAA.........SSNYRVTFCPTA, L = 49, S1=A

S的进化型(evolutionary profile)就是位置特异性得分矩阵(PSSM),通过三次迭代的方法搜索nrdb90蛋白质数据库生成。

多序列对比的E值(期望值)临界点是0.001.

PSSM包含每种氨基酸在蛋白质序列的每个残基位置进化过程中的概率。

因此,PSSM测量了在一个给定位置的残基保护(residue conservation)。

PSSM进化信息存储在一个维度为L*20的矩阵:

(1)

每一行对应表示序列S的对应位置。例如,第一、二和第L行分别对应S的第一,第二和第L的位置。

这些列表示20个氨基酸的残基类型:{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}

例如,第一、第二和第二十列分别“A”、“C”和“Y.

pi,j代表在进化过程中S的i位置上的突变残留的j型的残渣评分1iL,1j20)。         

通常来说,数值越高,代表突变发生的越频繁。

高度可变位点的残基很可能是功能性的。Residues at highly mutable sites are likely to be functional 

Local Pse-PSSM features.

Pse-PSSM特征可以充分发掘出PSSM中的进化信息和序列顺序信息。

然而,如果DNA绑定蛋白序列直接用Pse-PSSM特征,那么进化过程中的本地保留信息将会丢失。

为了保存本地保留信息,对Pse-PSSM特征进行修改:

1.标准化PSSM。对公式(1)做如下标准化:

(2)

pi,j代表PSSM原始分数。标准化后的分数fi,j对二十种氨基酸有0均值。

正值表示对应的突变出现相较于在多重排列中比预期的更频繁。负值表示更不频繁。

标准化后的PSSM:

(3)

 2.分段标准化矩阵Pnormalized 。   

 在这一步中将标准化矩阵Pnormalized 分段成n个子矩阵。为方便起见,我们表示k个子矩阵(1≤K≤N)。

 前n-1个子矩阵有L/n行和20列,最后的子矩阵有(L-(n-1)*L/n)行,20列。

只有当L/n是整数时,前n-1个子矩阵和最后的子矩阵大小才会相等。

并且每个子矩阵保留了存储在原始PSSM矩阵中的进化信息。更重要的是分段操作捕获了本地转换信息,因为这个信息总是存在于本地区域中。

3.计算每一个子矩阵的local Pse-PSSM 特征

为了测量出蛋白质S的本地转换信息,计算每一个子矩阵的本地Pse-PSSM特征。

然而, (≤ ≤ 1) 和 并非尺寸相等。因此,需要分开来计算。

对于前n-1个子矩阵,计算20个本地特征通过合成进化信息,

   (4)

Fj(k) 表示在进化过程中,每个残基位置在第k个分段序列变异残留的类型j平均概率。

因此,对于前n-1个子矩阵,获得(n-1) *20个包含进化信息的本地特征。

为了包含序列顺序信息,将蛋白质S表示成:

 (5)

表示两个成对的残差通过ξ  对于氨基酸类型j在第k个子矩阵的平均关联。

在结合了包含进化信息的part1和序列信息的part2的本地特征后,我们获得了前n-1个子矩阵的20*(n-1)*(1+λ)个本地Pse-PSSM特征。

特征的空间表达。

最后一个子矩阵的本地Pse-PSSM特征可表示为:

       

计算方式与前n-1个子矩阵计算方式相同。

最终的矩阵向量可表示为:


选择λ=1和n=3作为默认的参数。

最终得到的是120维的特征向量。


阅读全文
0 0
原创粉丝点击