主动学习(五)—— adaptive+improved entropy-based sampling method

来源:互联网 发布:淘宝水兵舞春秋装 编辑:程序博客网 时间:2024/06/17 21:56

本博客系原创作品,转载请注明出处:http://blog.csdn.net/JYZhang_CVML/article/details/60769632
文章来源:Practice makes perfect: An adaptive active learning framework for image classification
博客所述纯属个人小白理解,也欢迎大神拍砖指正~

算法背景

  uncertainty sampling 方法是active learning 算法中非常常用的算法,其简单高效,对于分类器的依赖程度低。但是传统的 uncertainty sampling 方法存在这样的缺陷:仅仅考虑样本的 uncertainty 程度(也就是 informative 程度,本文算法通过 entropy-based 算法衡量),而没有考虑样本的标签分布(也就是representation 程度)。 因此会造成算法sampling过程的缺陷。
  这里写图片描述
  针对上述问题,本文提出 The negative-accelerated adaptive active sampling with a bag-of-visual-words (NAASB)主动学习框架。其特征在于:(i) 用 Rescorla-Wagner 感知模型作为终止准则。(ii)考虑样本类标签分布,利用从 BoVW估计得到的certainty度量引入传统的基于熵的uncertainty sampling 方法,得到更加准确的certainty度量。(iii)自适应性。在训练过程中,权值通过样本集合的内部相似性(SSIM)自适应初始化,在学习过程中动态调整。

算法概述

  NAASB算法包括两个部分:图像分类器训练和样本选择。
  (a) 图像分类器训练。
  利用标记好的样本集合训练分类器,以及根据不同类别特征自适应的初始化NAASB的参数
  每次迭代通过主动选择策略选择样本,然后给标记,训练得到效果更好的分类器。
  停止准则:根据negative-accelerated原则衡量分类器的效果。
  (b) 样本选择
  将分类器的certainty输出引入考虑类标签分布的基于熵的主动采样策略中。
  挑选出来的样本通过分类器标注,而减少人工标注的工作。

算法细节

  算法细节部分,主要考虑两个方面:参数初始化和如何考虑类标签。
  

  • NAASB的度量方式——如何将类标签分布考虑进基于熵的uncertainty sampling
      基于熵的主动学习算法:这里写图片描述 。这种算法的缺陷在于:在采样阶段忽略了类标签分布。
      针对上述问题,将通过BoVW计算得到的确定性度量certainty measure引入传统的基于熵的采样方法,来估计样本的类标签分布类标签分布通过下面估计得到:
      这里写图片描述
      其中 pAi 是分类器对于特定BoF特征的相应,因此 c 是测试样本估计的类标签。注意 Yci 是 c类的第i个标记的样本。
      因此, Ds 是当前样本和标记好的样本集中对应类标签相同的样本之间的MSE。通过考虑标记好的样本集的MSE,representativeness 加入模型中提升样本选择算法的效果。
      讲真话~个人理解这边所谓的 考虑样本类标签的分布,其实就是 diversity 的一种形式。不过传统的 diversity 算法考虑的是当前样本和之前选择的样本之间的 diversity,而本算法考虑的是当前样本和labeled样本中相同类标签的样本的 diversity。
      综上,总的对于当前样本的度量方程:
      这里写图片描述
      其中 De 代表uncertainty度量,提供样本的信息量大小信息。这里写图片描述
      Ds 代表类分布,提供样本对于整个数据空间的representativeness。这里写图片描述
      考虑到 DeDs 的量级可能会存在不同,对这两者独立地进行正则化处理。其中参数 beta 正是下文参数选择的主要目标。
     
  • 自适应参数设置
      这里写图片描述
     其中 t 是迭代次数,k 是最开始的值,需要注意的是 w 根据不同的类别设置不同的值。
     问题一:为什么设置 Beta 随着迭代次数衰减?
     随着迭代次数的增加,我们能够得到越来越好的分类器。从上面的对于 Ds 的求解计算也可以发现,其计算是依赖于分类器对于当前样本类别的估计的,因此迭代次数越多估计越准确,应该给 Ds 更大的权重。
     问题二:为什么给不同类别不同的 w
     (i)不同类别的样本,它们的特征的尺度,相似性,质量存在比较大的区别,分类结果应该独立于 k
     (ii) 训练样本数量也会影响分类器的训练。越多的样本提供给分类器训练,分类器对应训练时间越长,得到的性能就越好。
     因此,在本算法中对不同的类别设置不同的 w ,采用结构相似性SSIM来表示一个类别内样本之间的关系,从而对训练集的不同类别进行动态初始化 w

总结

  结合BoVW的类标签分布和基于熵的主动选择策略能够提高选择过程的质量。
  informativeness衡量样本减少分类器uncertainty的能力,representativeness衡量样本表征未标记样本模式的能力。本算法中informativeness通过基于熵的uncertainty sampling得到,同时representativeness通过类似diversity的方式引入uncertainty sampling。同时自适应的参数调节使得算法有更好的性能。
  

0 0
原创粉丝点击