Network Component Analysis(NCA)

来源:互联网 发布:linux ssh修改文件内容 编辑:程序博客网 时间:2024/05/19 12:35
在生物信息中,常常会有大量的多维数据出现,自然而然,我们想寻找一个降维的方法进行处理。在Liao[03]年的PANS论文上就提出了一个新的降维方法-----Network Component Analysis(NCA)。在这篇论文中,他也提出了其他两种用于生物网络的统计学方法PCA、ICA的缺点:1、在调控信号上暗含的统计假设缺少生物学基础(First, the implicit statistical assumptions on the regulatory signals lack biological foundation)2、重建的连通结构与潜在的生物网络不一致(Second, the reconstructed connectivity structure is unlikely to be consistent with the underlying network structure)。因此我们想要找到一个分解不在调控信号的统计属性有假设,同时,又希望在给定的系统的结构特征上处理先验知识(Therefore, we seek a decomposition method that makes no assumption on the statistical properties of the regulatory signals and that, at the same time, allows proper handling of the prior knowledge on the structure charactering a given system)

多维数据通常是M个样本(或者是时间点)在N个输出变量上(例如转录物的表达率),组成一个矩阵E(N*M),L个调控信号组成了矩阵P(L*M)。我们试图寻找一个重建模型:

Network <wbr>Component <wbr>Analysis(NCA)


这里,A(N*L)表示调控层和输出变量之间的连接强度(connectivity strength)。Eq.1代表任何detailed mechanistic model的线性近似,通常用于一次近似。但这个等式有点问题,就是E不能被唯一的分解成A和P,例如:

Network <wbr>Component <wbr>Analysis(NCA)

类似地,PCA和ICA也可以把E分成两组不相同的矩阵,所以我们需要加一下限制条件在A上,让X只可能是对角阵(证明略),此外,当A是列满秩矩阵、P是行满秩矩阵时,Eq.2代表着E唯一可能的分解,这样,Eq.1会产生一个唯一的分解,我们把这样的分解成为NCA。

NCA的可行性条件如下:

(i)  A必须是列满秩矩阵
(ii) 当调控层的一个节点被移除,,与它有关的边也应该全被移除,移除之后的连接矩阵也应该是列满秩,也就意味着,A的每一列至少含有L-1个零(这个不太明白)
(iii)P必须是行满秩,也就是说调控信号之间是线性无关的

如果这些条件被满足,E则可以被唯一的分解为A和P,A中包含的是每条边的连接强度,P中包含的每个调节点的调控信号。
0 0