论文笔记【Local-DPP: An improved DNA-binding protein prediction method by exploring local evolutionary】

来源：互联网发布：服务器坏了 raid 数据编辑：程序博客网时间：2024/05/29 17:58

预测DNA结合蛋白——Feature representation algorithm

提出一种新奇的特征表达算法，能够有效的提取PSSM的局部特征。

首先分块PSSMs成大小相等的子矩阵，对每一部分提取局部特征。

最后结合全部的特征。分类算法：随机森林（Random Forest）

Position-specific scoring matrix (PSSM). 位置特异性得分矩阵

假定一个蛋白质序列S，长度为L，则其可表达为S1S2. . . SL ，Si(1≤i≤L) 代表S的第i个位置的氨基酸。

例如S = ATFEIVNRCSYTVWAAASKGDAA.........SSNYRVTFCPTA, L = 49, S1=A

S的进化型（evolutionary profile）就是位置特异性得分矩阵（PSSM），通过三次迭代的方法搜索nrdb90蛋白质数据库生成。

多序列对比的E值（期望值）临界点是0.001.

PSSM包含每种氨基酸在蛋白质序列的每个残基位置进化过程中的概率。

因此，PSSM测量了在一个给定位置的残基保护（residue conservation）。

PSSM进化信息存储在一个维度为L*20的矩阵：

（1）

每一行对应表示序列S的对应位置。例如，第一、二和第L行分别对应S的第一，第二和第L的位置。

这些列表示20个氨基酸的残基类型：{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}

例如，第一、第二和第二十列分别指“A”、“C”和“Y”.

pi,j代表在进化过程中S的i位置上的突变残留的j型的残渣评分（1≤i≤L,1≤j≤20）。

通常来说，数值越高，代表突变发生的越频繁。

高度可变位点的残基很可能是功能性的。Residues at highly mutable sites are likely to be functional

Local Pse-PSSM features.

Pse-PSSM特征可以充分发掘出PSSM中的进化信息和序列顺序信息。

然而，如果DNA绑定蛋白序列直接用Pse-PSSM特征，那么进化过程中的本地保留信息将会丢失。

为了保存本地保留信息，对Pse-PSSM特征进行修改：

1.标准化PSSM。对公式（1）做如下标准化：

（2）

pi,j代表PSSM原始分数。标准化后的分数fi,j对二十种氨基酸有0均值。

正值表示对应的突变出现相较于在多重排列中比预期的更频繁。负值表示更不频繁。

标准化后的PSSM：

（3）

2.分段标准化矩阵Pnormalized 。

在这一步中将标准化矩阵Pnormalized 分段成n个子矩阵。为方便起见，我们表示k个子矩阵（1≤K≤N）。

前n-1个子矩阵有L/n行和20列，最后的子矩阵有（L-（n-1）*L/n）行，20列。

只有当L/n是整数时，前n-1个子矩阵和最后的子矩阵大小才会相等。

并且每个子矩阵保留了存储在原始PSSM矩阵中的进化信息。更重要的是分段操作捕获了本地转换信息，因为这个信息总是存在于本地区域中。

3.计算每一个子矩阵的local Pse-PSSM 特征

为了测量出蛋白质S的本地转换信息，计算每一个子矩阵的本地Pse-PSSM特征。

然而， (1 ≤ k ≤ n - 1) 和并非尺寸相等。因此，需要分开来计算。

对于前n-1个子矩阵，计算20个本地特征通过合成进化信息，

（4）

Fj(k) 表示在进化过程中，每个残基位置在第k个分段序列变异成残留的类型j平均概率。

因此，对于前n-1个子矩阵，获得（n-1） *20个包含进化信息的本地特征。

为了包含序列顺序信息，将蛋白质S表示成:

(5)

表示两个成对的残差通过ξ 对于氨基酸类型j在第k个子矩阵的平均关联。

在结合了包含进化信息的part1和序列信息的part2的本地特征后，我们获得了前n-1个子矩阵的20*（n-1）*（1+λ）个本地Pse-PSSM特征。

特征的空间表达。

最后一个子矩阵的本地Pse-PSSM特征可表示为：

和的计算方式与前n-1个子矩阵计算方式相同。

最终的矩阵向量可表示为：

选择λ=1和n=3作为默认的参数。

最终得到的是120维的特征向量。

阅读全文

0 0