论文笔记【Local-DPP: An improved DNA-binding protein prediction method by exploring local evolutionary】
来源:互联网 发布:服务器坏了 raid 数据 编辑:程序博客网 时间:2024/05/29 17:58
预测DNA结合蛋白——Feature representation algorithm
提出一种新奇的特征表达算法,能够有效的提取PSSM的局部特征。
首先分块PSSMs成大小相等的子矩阵,对每一部分提取局部特征。
最后结合全部的特征。分类算法:随机森林(Random Forest)
Position-specific scoring matrix (PSSM). 位置特异性得分矩阵
假定一个蛋白质序列S,长度为L,则其可表达为S1S2. . . SL ,Si(1≤i≤L) 代表S的第i个位置的氨基酸。
例如S = ATFEIVNRCSYTVWAAASKGDAA.........SSNYRVTFCPTA, L = 49, S1=A
S的进化型(evolutionary profile)就是位置特异性得分矩阵(PSSM),通过三次迭代的方法搜索nrdb90蛋白质数据库生成。
多序列对比的E值(期望值)临界点是0.001.
PSSM包含每种氨基酸在蛋白质序列的每个残基位置进化过程中的概率。
因此,PSSM测量了在一个给定位置的残基保护(residue conservation)。
PSSM进化信息存储在一个维度为L*20的矩阵:
(1)
每一行对应表示序列S的对应位置。例如,第一、二和第L行分别对应S的第一,第二和第L的位置。
这些列表示20个氨基酸的残基类型:{A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y}
例如,第一、第二和第二十列分别指“A”、“C”和“Y”.
pi,j代表在进化过程中S的i位置上的突变残留的j型的残渣评分(1≤i≤L,1≤j≤20)。
通常来说,数值越高,代表突变发生的越频繁。
高度可变位点的残基很可能是功能性的。Residues at highly mutable sites are likely to be functional
Local Pse-PSSM features.
Pse-PSSM特征可以充分发掘出PSSM中的进化信息和序列顺序信息。
然而,如果DNA绑定蛋白序列直接用Pse-PSSM特征,那么进化过程中的本地保留信息将会丢失。
为了保存本地保留信息,对Pse-PSSM特征进行修改:
1.标准化PSSM。对公式(1)做如下标准化:
(2)
pi,j代表PSSM原始分数。标准化后的分数fi,j对二十种氨基酸有0均值。
正值表示对应的突变出现相较于在多重排列中比预期的更频繁。负值表示更不频繁。
标准化后的PSSM:
(3)
2.分段标准化矩阵Pnormalized 。
在这一步中将标准化矩阵Pnormalized 分段成n个子矩阵。为方便起见,我们表示k个子矩阵(1≤K≤N)。
前n-1个子矩阵有L/n行和20列,最后的子矩阵有(L-(n-1)*L/n)行,20列。
只有当L/n是整数时,前n-1个子矩阵和最后的子矩阵大小才会相等。
并且每个子矩阵保留了存储在原始PSSM矩阵中的进化信息。更重要的是分段操作捕获了本地转换信息,因为这个信息总是存在于本地区域中。
3.计算每一个子矩阵的local Pse-PSSM 特征
为了测量出蛋白质S的本地转换信息,计算每一个子矩阵的本地Pse-PSSM特征。
然而, (1 ≤ k ≤ n - 1) 和 并非尺寸相等。因此,需要分开来计算。
对于前n-1个子矩阵,计算20个本地特征通过合成进化信息,
(4)
Fj(k) 表示在进化过程中,每个残基位置在第k个分段序列变异成残留的类型j平均概率。
因此,对于前n-1个子矩阵,获得(n-1) *20个包含进化信息的本地特征。
为了包含序列顺序信息,将蛋白质S表示成:
(5)
表示两个成对的残差通过ξ 对于氨基酸类型j在第k个子矩阵的平均关联。
在结合了包含进化信息的part1和序列信息的part2的本地特征后,我们获得了前n-1个子矩阵的20*(n-1)*(1+λ)个本地Pse-PSSM特征。
特征的空间表达。
最后一个子矩阵的本地Pse-PSSM特征可表示为:
和的计算方式与前n-1个子矩阵计算方式相同。
最终的矩阵向量可表示为:
选择λ=1和n=3作为默认的参数。
最终得到的是120维的特征向量。
- 论文笔记【Local-DPP: An improved DNA-binding protein prediction method by exploring local evolutionary】
- improving protein disorder prediction by deep bidirectional lstm rnn
- local ,
- [深度学习论文笔记][arxiv 1711] Non-local Neural Networks
- 【文献阅读】Convolutional neural network architectures for predicting DNA-protein binding
- Re-ID: Person Re-identification by Local Maximal Occurrence Representation and Metric Learning 论文解析
- thread local 学习笔记
- Rosetta Protein Prediction Tools-----clean_pdb.py
- undefined local variable or method `version_requirements' for #
- 2015.11.27------Local Gabor Binary Pattern Histogram Sequence(LGBPHS)论文笔记
- 论文《Face Alignment at 3000 FPS via Regressing Local Binary Features》笔记
- 【论文笔记】Face Alignment at 3000 FPS via Regressing Local Binary Features
- [论文笔记] Face Alignment at 3000FPS via Regression Local Binary Features
- 论文笔记:Evaluation of local spatio-temporal features for action recognition
- an error ocurred during local report processing
- Find local minima in an array
- local standard deviation of an image
- Android ApiDemos示例解析(39):App->Service->Local Service Binding
- 微信公众号插入地图及地图搜索资源的前端处理(坐标系转码,自动定位等业务实现)
- 剑指offer—构建乘积数组
- 服务器端的应用及服务,监控管理
- 关于dp和记忆化搜索
- JDK1.8的新特性之Lambda表达式的应用
- 论文笔记【Local-DPP: An improved DNA-binding protein prediction method by exploring local evolutionary】
- jzoj5498 【清华集训2017模拟12.10】大佬的难题 巧妙容斥
- JAVA---抽象与接口
- 利用colinux制作tinycolinx,在ecs上打造server farm和vps iaas环境代替docker
- 项目中常用的19条MySQL优化
- java之抽象对象和类与接口的区别
- TypeError: 'AxesSubplot' object is not subscriptable的解决办法
- 字符串的分割
- poj 3268(dijkstra变形---有向图来回最短路)