主动学习(五)—— adaptive+improved entropy-based sampling method
来源:互联网 发布:淘宝水兵舞春秋装 编辑:程序博客网 时间:2024/06/17 21:56
本博客系原创作品,转载请注明出处:http://blog.csdn.net/JYZhang_CVML/article/details/60769632
文章来源:Practice makes perfect: An adaptive active learning framework for image classification
博客所述纯属个人小白理解,也欢迎大神拍砖指正~
算法背景
uncertainty sampling 方法是active learning 算法中非常常用的算法,其简单高效,对于分类器的依赖程度低。但是传统的 uncertainty sampling 方法存在这样的缺陷:仅仅考虑样本的 uncertainty 程度(也就是 informative 程度,本文算法通过 entropy-based 算法衡量),而没有考虑样本的标签分布(也就是representation 程度)。 因此会造成算法sampling过程的缺陷。
针对上述问题,本文提出 The negative-accelerated adaptive active sampling with a bag-of-visual-words (NAASB)主动学习框架。其特征在于:(i) 用 Rescorla-Wagner 感知模型作为终止准则。(ii)考虑样本类标签分布,利用从 BoVW估计得到的certainty度量引入传统的基于熵的uncertainty sampling 方法,得到更加准确的certainty度量。(iii)自适应性。在训练过程中,权值通过样本集合的内部相似性(SSIM)自适应初始化,在学习过程中动态调整。
算法概述
NAASB算法包括两个部分:图像分类器训练和样本选择。
(a) 图像分类器训练。
利用标记好的样本集合训练分类器,以及根据不同类别特征自适应的初始化NAASB的参数。
每次迭代通过主动选择策略选择样本,然后给标记,训练得到效果更好的分类器。
停止准则:根据negative-accelerated原则衡量分类器的效果。
(b) 样本选择
将分类器的certainty输出引入考虑类标签分布的基于熵的主动采样策略中。
挑选出来的样本通过分类器标注,而减少人工标注的工作。
算法细节
算法细节部分,主要考虑两个方面:参数初始化和如何考虑类标签。
- NAASB的度量方式——如何将类标签分布考虑进基于熵的uncertainty sampling
基于熵的主动学习算法: 。这种算法的缺陷在于:在采样阶段忽略了类标签分布。
针对上述问题,将通过BoVW计算得到的确定性度量certainty measure引入传统的基于熵的采样方法,来估计样本的类标签分布。类标签分布通过下面估计得到:
。
其中pAi 是分类器对于特定BoF特征的相应,因此c 是测试样本估计的类标签。注意Yci 是 c类的第i个标记的样本。
因此,Ds 是当前样本和标记好的样本集中对应类标签相同的样本之间的MSE。通过考虑标记好的样本集的MSE,representativeness 加入模型中提升样本选择算法的效果。
讲真话~个人理解这边所谓的 考虑样本类标签的分布,其实就是 diversity 的一种形式。不过传统的 diversity 算法考虑的是当前样本和之前选择的样本之间的 diversity,而本算法考虑的是当前样本和labeled样本中相同类标签的样本的 diversity。
综上,总的对于当前样本的度量方程:
。
其中De 代表uncertainty度量,提供样本的信息量大小信息。
Ds 代表类分布,提供样本对于整个数据空间的representativeness。
考虑到De 和Ds 的量级可能会存在不同,对这两者独立地进行正则化处理。其中参数beta 正是下文参数选择的主要目标。
- 自适应参数设置
其中t 是迭代次数,k 是最开始的值,需要注意的是w 根据不同的类别设置不同的值。
问题一:为什么设置Beta 随着迭代次数衰减?
随着迭代次数的增加,我们能够得到越来越好的分类器。从上面的对于Ds 的求解计算也可以发现,其计算是依赖于分类器对于当前样本类别的估计的,因此迭代次数越多估计越准确,应该给Ds 更大的权重。
问题二:为什么给不同类别不同的w ?
(i)不同类别的样本,它们的特征的尺度,相似性,质量存在比较大的区别,分类结果应该独立于k 。
(ii) 训练样本数量也会影响分类器的训练。越多的样本提供给分类器训练,分类器对应训练时间越长,得到的性能就越好。
因此,在本算法中对不同的类别设置不同的w ,采用结构相似性SSIM来表示一个类别内样本之间的关系,从而对训练集的不同类别进行动态初始化w 。
总结
结合BoVW的类标签分布和基于熵的主动选择策略能够提高选择过程的质量。
informativeness衡量样本减少分类器uncertainty的能力,representativeness衡量样本表征未标记样本模式的能力。本算法中informativeness通过基于熵的uncertainty sampling得到,同时representativeness通过类似diversity的方式引入uncertainty sampling。同时自适应的参数调节使得算法有更好的性能。
- 主动学习(五)—— adaptive+improved entropy-based sampling method
- Active-Learning 主动学习(三)—— Hierarchical Sampling 分层采样
- 主动学习(四)——Uncertainty sampling with Diversity Maximization
- Word2Vec学习笔记(五)——Negative Sampling 模型(续)
- Word2Vec学习笔记(四)——Negative Sampling 模型
- 深度学习之OCR(五)——Attention机制_gradient-based attention
- 动作识别:improved dense trajectories(iDT)特征编码—Fisher Vector代码学习
- Alias Method for Sampling
- Alias Method for Sampling
- 熵(entropy)学习记录
- 机器学习技法总结(五)Adaptive Boosting, AdaBoost-Stump,决策树
- 机器学习基础(六)—— 交叉熵代价函数(cross-entropy error)
- 学习Caffe(五):浅析softmax cross entropy loss与sigmoid cross entropy loss
- 《Improved adaptive Gausian mixture model for background subtraction》
- 设计模式(五)——工厂模式(Factory Method)
- Android框架设计模式(五)——Singleton Method
- Hive学习之抽样(Sampling)
- Hive学习之抽样(Sampling)
- WebRTC源码中turnserver的使用方法
- exploit
- 揭秘jbpm流程引擎内核设计思想及构架
- ScrollView中EditText报java.lang.IllegalArgumentException: parameter must be a descendant of this view
- java反射技术
- 主动学习(五)—— adaptive+improved entropy-based sampling method
- Photon服务器引擎(一)Photon简介
- 设计模式(3)--观察者模式
- PCM5242从OSS切换到ALSA问题 【君正JZ4760】
- Jake大神的三把刀
- MySQL max_allowed_packet 错误
- PLSQL语法&&游标&&存储过程/存储函数&&异常&&触发器
- 程序员转行很难
- Sublime text3 配置 LiveReload