半监督学习

来源:互联网 发布:钢结构强度校核软件 编辑:程序博客网 时间:2024/05/19 06:16

半监督学习

  • 半监督学习
    • 生成式方法
    • 半监督SVM
    • 图半监督学习
    • 基于分歧的方法
    • 半监督聚类


使使
给定的数据集中,如果每个样本都有标记,那么可以使用监督学习来完成相关任务。但实,实际情况中往往很难达到每个样本都有标记,因为有些时候对每个样本都进行标记是很困难的。那么是否可以通过有限的部分带标签的数据和一些未带标签的数据来进行学习呢?这就是半监督学习所需要解决的问题。

未标记样本虽然没有带标签,但是与带标签的样本一样,都是从同样的数据源独立同分布采样而来。若想利用这一部分数据,则需要做出一些假设,诸如聚类假设(数据存在簇结构,同一个簇的样本属于同一个类别)、流形假设(数据分布在一个流形结构上,相近的样本有相似的输出值)。这些假设归根到底都是在假设相似的样本在同一个学习器中有相似的输出。


生成式方法

基于生成式模型,假设所有的数据都是依据一个模型生成而来。将未标记的数据的标记座位模型的缺失参数,通过EM算法来进行极大似然估计求解。这种方法依赖于假设的模型。


半监督SVM

半监督支持向量机(S3VM)。在不考虑未标记样本时,寻找将标记样本间最大间隔划分的超平面;考虑未标记样本时,寻在能将带标记的样本分开且穿过数据低密度区的划分超平面。半监督svm代表算法是TSVM。

TSVM试图对未标记的样本进行各种可能的标记指派,即尝试将每一个未标记样本分别作为正例或者反例,然后再所有这些结果中,寻找一个在所有样本上间隔最大化的超平面划分。


图半监督学习


基于分歧的方法

该方法使用多学习器,而学习器之间的分歧在标记数据的利用中有重要的作用。协同训练是该类方法的典型代表。

多视图数据
一个数据往往同属拥有多个属性集,那么从不同的属性集来看就会形成一个对该数据的视图。这种感觉有点类似一个三维物体的三视图,从不同的观察能得到不同的结果。

假设不同视图具有相容性,即利用不同视图信息得到的该数据的输出是一致的。假设Y1Y2分别为该数据从不同视图得到的标记,而Y是该数据本身的标记,那么则有Y1=Y2=Y。基于这种相容性,在使用多个学习器对数据进行学习时,多个学习器之间可以形成互补。

协同训练使用了多视图数据的相容互补性。假设数据拥有多个充分且条件独立的独立视图。充分指每个视图包含的信息足够多以便能够获得一个最有的学习器;条件独立指的是在给定类别标记条件下各个视图独立。

协同训练的过程为:首先在各个视图上基于已有标记的数据分别训练出一个学习器;然后让每个学习器去挑选自己最有把握的未标记样本做一个伪标签;将带有伪标签的样本提供给另一个学习器作为有标记的样本进行训练更新。通过这样的迭代知道所有学习器都不发生变化位置。


半监督聚类

聚类是一种无监督的学习。在数据的获取过程中,有时候往往会获得数据间的一些关系信息,常见的信息可以分为:必连和勿连两种。前一种信息指明了两个样本必定属于同一个样本;后一种关系指明了两个样本必定不同属于一簇。
代表的半监督聚类算法有:约束k均值算法(利用第一种监督信息)和约束种子k均值算法(利用第二种监督信息)。