基于不确定性主动学习的基本过程

来源:互联网 发布:hp网络打印机怎么连接 编辑:程序博客网 时间:2024/05/03 07:09

主动学习(Active learning):

主动学习也是一种监督学习

与传统监督学习不同的是,传统监督学习直接利用外界提供的已标注样例进行训练,即训练集合由已标注样例构成

而主动学习则主动选择所需要的样例,从大量无类别样例中挑选认为最有价值的样例进行标注,标注后的样例加入到训练集,学习过程同传统监督学习一样,都是在有标注的训练集基础上生成分类器模型。随后,主动学习会将模型作为指导,挑选下次的样例来提高分类器性能。

主动学习的目标是在保证分类器性能前提下使用尽可能少的训练样例。合理地选取样例能够降低所需的训练样本数目

在主动学习的过程中,关键是如何从大量的未标注样例中挑选最有价值的样例进行标注,一种常用的主动学习的方法是基于不确定性的样例选择,策略倾向选择那些当前分类器最无法确定其类别的样例进行标注。
选择算法从未标注样例中挑选最有价值的样例交给专家,进行标注后加入训练集,这样可以用尽量少的样例获得尽可能高的分类性能

不确定性衡量准则:
这里写图片描述
这里写图片描述
这里写图片描述

样例挑选过程中,根据基本分类器的不同特点,选择不同的不确定性评价标准去实
现。

在样例选择的过程中,还要考虑是否选择到了孤立点(离群点),孤立点会影响分类器性能。所以在样例选择中还需考虑选择的样例,与其他未被选择样例的距离,或者说以选择样例为中心其他样本密度。

参考文献:
王珍钰. 基于不确定性的主动学习算法研究[D]. 河北大学, 2011.