Incorporating organelle correlations intosemi-supervised learning论文分析

来源：互联网发布：金勃良知乎编辑：程序博客网时间：2024/06/08 02:51

Incorporating organelle correlations intosemi-supervised learning for protein subcellular localization prediction

动机：

曾经的系统性能问题导致图像处理质量不高
现有的生物信息图像内标注稀疏，样本少
多标记类蛋白质用传统生物实验和自动化难以检测

概述：

贝叶斯网络是一种描述事物错综复杂关系的模型，针对于各个细胞器之间的联系建模会非常有用。
半监督学习：先利用标记好的数据训练出满足未标记数据的分布再进行监督学习，实验利用了五种半监督学习方法进行集成提高了数据的拟合性。
拓扑排序是描述事物影响先后顺序的一种排序规则，应用到多标签问题中可以让某个蛋白质的分类具有先后性且不影响自身属性，因为拓扑序不唯一。

（一）介绍

有大约109个蛋白质存在于人体的细胞器内，如果能研究并标记这些蛋白质的去处则有利于我们研究蛋白质的作用和传输到细胞器之间的关系

例如：

* 线粒体(mitochondria)：负责有氧呼吸和产生能量
* 高尔基体(Golgi apparatus)：负责处理，包装大分子

问题引申：

注释蛋白质亚细胞非常的耗时，且成本高，从而生出很多自动化系统。
数据来源一般是蛋白质的氨基酸序列或者显微镜下的生物图像。
针对一维的氨基酸序列，一般采用的是同源性转移或者靶信号来预测基因序；但对二维的生物信息图像进行模式分析的优势在于可以得到更加直观且定量的空间分布信息。

本文方法的研究是在已经有许多亚细胞定位注释的蛋白质的生物图像库已经被构建，提供了丰富的数据集的前提下：

人类蛋白质图谱（HPA）：http://proteinatlas.org
- 免疫组织化学图像(IHC)
- 显示细胞中蛋白质空间分布的免疫荧光(IF)
主要解决的问题：
- 可靠数据仍旧有限，在样品中只有13%是具有质量高的IHC图像，且不足一半的标记荧光（IF）
- 以往的实验由于可用数据少，只用高质量数据，而造成了大量低质量数据被浪费，切降低了训练的泛化能力
- 利用未标记的数据可以大大提高模型的泛化能力且解决样本数量少的问题

算法设计：

启发式算法（heuristic-based）：一种最优化方法，本质就是用来快速求解未标记数据的参数，但是无法保证全局最优解，并且不同于元启发算法的地方在于启发式算法是由资深算法固定了输入输出，因此不存在随机因素，对于那种想得到固定解的标记因素非常适用。
- 文中表明早起的启发式学习是将标记数据用于训练出一个分类器，并预测未标记数据生成更多的标记，新数据仍旧可以加入训练集进行。这个操作让我想到了之前验证码识别的时候，用20W的训练集集进行预测，测试集有10W，我们的初始模型在测试集上有95%的准确率，我们将测试集的结果加入训练集构成30W训练集重新训练网络，最终得到了99%的准确率。
随后也有研究出启发式学习的变体如共同训练或者CoForest算法，文中表示团队设计了一个知识导向的半监督算法，叫做AsemiB。基本原理就是交叉类的知识迁移学习，并且取得了非常好的效果。
作者文中利用到的第二个算法是基于图的，根据样本和其边缘的检测来表示样本之间的配对关系，然后将配对好的标签传到未标记的图像的对应样本中。
直推学习（transductive learning）：通过观察特定的训练样本，进而预测特定的测试样本的方法，文章中尝试将数据分组离散化，以试图降低决策边界( low-density regions )的复杂度（个人感觉可能是降维或者降低非线性决策边界的参数复杂度什么的操作）。而相对的还有一种叫做归纳推理（Induction Inference）的算法，是先从样本中学习规则，再利用规则进行样本预测，有一些小的差异就是前者是已知分布的，后者可能并不确定分布而需要学习一个分布出来。前者可能准确度会更高一些，因为特定数据集的分布是已知的。

作者通过实验证明了半监督学习的集成模型表现的比任何单独模型的结果都好

多标记蛋白质的处理：

发现哺乳动物的多标记蛋白占了总数的60%
设计多标签系统的好处是它可以为能为一个蛋白质返回一组标签，而非单一标签
多标记学习（binary relevance）：来自周志华老师的杰作，把多标记学习问题转化成q个独立的二分类问题，其中每个二分类问题对应标记空间y的一个类别标记。
根据研究发现亚细胞的位置之间有相关性（感觉反过来说细胞器之间有相关性吧，生物机能为了提高利用率会将一个蛋白质尽可能的快速利用到？）
- 举了个例子：细胞膜生成并包裹了囊泡生成了内体，因此有个蛋白质如果是多标记状态，那么大多数情况都是他们同时出现的。
- 因此如果能对这种潜在的关联性利用并建模将会提高准确率
对标签的相关性用贝叶斯图建模，将其作为二分类分类器的训练顺序和附加特征（将顺序作为特征吧，可能就是前文的拓扑序处理的应用），以提高半监督学习的准确率。

（二）方法

（A）数据集和特征工程

为了证明算法的泛化能力，文中应用了两类蛋白质图像：IHC和IF作为数据集。

每个图像集有三个类别的数据集：

A dataset (ADN): 简称已标注过的数据集，比如高质量的IHC图像或者已经可靠标注的IF图像，用于半监督算法的前期学习

*B dataset (BDN): 标记但置信度不高的数据集，在半监督学习中选择性加入未标记的候选集中（感觉就和验证集一样）

*IDN：采集自HPA，但是保证没有和训练集重复

IHC数据集：（用多维特征描述一个亚细胞的图像组成）

Haralick texture features ：836维
DNA distribution features ：4维
binary patterns features ：256维
Daubechies（二进制小波）：实验应该是生成了十组Haralick纹理记作db1~db10，每个Daubechies里用1096维的数字来描述一个IHC图像。

下图提供了不同等级的数据集在不同细胞器里的图像质量

IF数据集：（细胞定位在九个细胞器内，然后对标记的细胞图像进行分割然后计算定位特征）

第一行表示了原始图像的组成成分：蛋白质（绿色），核（蓝色），微管（红色），ER（黄色）
第二行表示蛋白质通道模式，即省去了成分只显示蛋白质位置

由于高维特征容易导致过拟合，因此在聚类方法中用到了逐步判别分析，预测变量对其组别的判别能力而被逐步引入。(试验中选择的特征维数约为80维，切随着训练集的不同而变化，即选择最具有信息性的特征)

（B）半监督学习的算法设计

实验用了五种半监督学习算法进行模型融合：

AsemiB : 基于self-training，不断的将候选样本放入训练的迭代方法。初始训练集为ADN，候选样本集为BDN，初始的二元分类器是由很多个SVM模型构成的（每一个模型对应一个亚细胞的位置类别），大致思路就是每次预测后将预测得到的样本加入训练集进行迭代预测。终止条件就是当loss趋近于不动时。

Logistic label propagation ：使用sigmoid函数对样本进行二分类，同时引入标签传播对分类器进行优化（可以将标签从标签数据传播到图的未标签数据）。sigmoid可以用来对输入数据进行类别预测，而标签传播必须在样本输入前就对分类器进行优化。标签传播算法的核心思想就是相似的数据应该具有相同的标签，构造一个邻接矩阵，节点i和j表示他们之间的相似度。通过节点之间的边进行传播label，边的权重越大代表节点相似度越高，label越容易传播过去。对于每个标签我们都进行二分类来判断它属于不属于这个分类即可。
Low density separation ：TSVM算法首先利用有标记的数据训练一个SVM并估计未标记数据的标记，然后基于最大化间隔准则，迭代式地交换分类边界两侧样本的标记，使得间隔最大化，并以此更新当前预测模型，从而实现在尽量正确分类有标记数据的同时，将决策边界“推”向数据分布相对稀疏的区域。缺点是TSVM是非凸的，很难被优化，LDS加入了梯度下降法以此来让模型成为凸模型。在BR框架下，每个二分类LDS模型对应一个类别，因为对于所有的样本都是基于欧氏距离度量，因此所有的二分类LDS模型都是针对一个图的。
- 常见的解决未标注文本的方法还有：EM算法，协同训练及最大熵判别方法。
Cost-sensitive semi-supervised support vector machine ：先估计未标记数据的标签均值，然后通过有效的顺序插入标签来求解最优化的CS4VM（网上的描述都是S4VM,S4VM关注的是多个可能的低密度分界线，因为给定一部分标记的数据和大量未标记的的点，可能存在多个间隔比较大的低密度分界线）。引入了成本信息来衡量不同样本在不同类别中的重要性，并且可以反映出loss的差异。其算法的主要目的是减少总成本（即尽可能少的训练）而不是总误差。这个算法的SVM核心是尽可能找出间隔最大的分布以此来估计标签均值，这样可以让均值的余量最大化（偏微分的内容，对误差平均达到最小误差为目的），那些比较难分的类给予较大的权重。S4VM也是二分类模型，因此在BR框架中是存在多个的。
Transductive multi-label classification ：使用标记数据和未标记数据对每个样本分配标签，该算法把标签分类看做是多标签的最优组合问题，然后将得到的最优解分配给未标记的样本。是一个TRAM问题（想到了HDU的《TRAM》，是一个用dijkstra求最短路的板子题），那么感觉就是把标签之间的最短路出来，也可以输出一个关于输入样本是否属于该类标签的得分。

（C）Label的设计与处理

为了保证测试数据从分类器输出的标签分数具有参考性，因此文中提出来设计一个标准来评判准确度：

假设有N个样本，那么对于第i个测试图片，应该输出一个分数向量si=[si1,si2,..,siN]，其中每一个对应的分类元素都是该分类的置信度（就是概率吧）l1,l2,...lN ；设置真实值Yi, 其中Y^=[y^i1,y^i2,...,y^iN]代表图像的预测标签集合，其中对于yij代表第i张图片对第j个标签的预测值，如果该样本属于该标签则值为1，否则为0。

在以往样本只有一个标签的时候，我们只需要得到argmax{si1,si2,...,siN}，即样本中Y值为1的概率最大的那个即可（首先数字识别就是典型代表，最终输出概率最大的为预测数字），多分类问题中显然输出的应该是一个向量，因此需要对其进行确定长度才能得到究竟属于几个分类。

T-criterion ：对二元分类器的预测进行评分，如果该分类器的预测与实际相同则为1，否则为0。
这样做的好处是尽可能的考虑正样本，但是如果全是负样本也可以筛选出尽可能得分高的样本作为唯一的分组保证了有解。缺点是01的值对图像并起不到很好的表达作用，因此不同的图像可能会得到不一样的评分向量。
D-criterion ：动态阈值法方法，根据分数向量和分布进行计算特定的阈值。理论依据是样本中标签对应真实标签应该有最大的相似度和评分。
如果待评分标签大于某个阈值s或者最大相似度差的比例小于某个阈值t，则认为该样本的标签满足该类。（因此S和T是通过极大后验概率而求出的不同的决策边界）
如果待评分标签全都不满足则认为其是相对大的单标签，否则不属于该类
D准则方法是T准则的一个优化方法。
U-criterion：用于解决T准则和D准则没有处理好的情况，即如果全是负样本则只能用最大值求得唯一标签的问题，对D准则进行动态约束：

只多做了一步处理就是对最大可能取了绝对值来进行预测，当存在正样本的时候则退化为D准则。这个准则可以用来预测全阴性但仍旧是多标记蛋白的情况。

（四）细胞器建模

文章对数据的处理使得多分类问题变成了N个二分类问题，从而取消了标签之间的联系。实际上，细胞器之间是存在相互联系的，因此如果能对这种联系建模则有希望提高对蛋白质亚细胞的分析。

图的构建：建立一个贝叶斯网络，节点表示亚细胞位置和边的关系，是一个有向无环图。

图中l1→l2代表了l1与l2有大概率之间有联系。

BDAGL算法用DP对贝叶斯网络中的每条边计算后验概率。将样本的标签当做输入，每个标签所代表的节点用0和1表示：1代表训练样例属于这个标签，0代表不属于。

分类器的构建：对初始特征建立N个独立的SVM分类器
对第i个测试样本，通过分类器得到一个得分向量，然后根据对label处理可以得到测试样本的标签，将样本当做输入集进行分类器迭代。
分类器的优化：重新训练N个二分类SVM分类器，而特征空间与训练分类器的顺序由拓扑序来决定

拓扑排序会重复选择节点来进行传输，直到所有节点被选中以前，没有传入的边会被带着对应的节点一起被移除，最后所有的边都会指向右边（以此来更新分类器的置信度吧）

由拓扑序来决定分类器的顺序，并且每个结果都会更新Yi
最终训练出的链式分类器仍旧会输出一个向量并最终和label设计算法进行组合输出结果。