利用隐式标记重要度的多标记学习

来源：互联网发布：python 最小化到托盘编辑：程序博客网时间：2024/05/15 23:46

《Leveraging Implicit Relative Labeling-Importance Information for Effective Multi-Label Learning》

文章发表在2015年ICDM上作者是东南大学PALM实验室的李宇琨学长张敏灵教授以及耿新教授

实验室主页 http://palm.seu.edu.cn/

一.前言

在机器学习中，传统监督学习是研究得最多、应用最广泛的一种学习框架。在该框架下，对于真实世界的每一个对象，学习系统在输入空间用一个示例（instance，通常为属性向量）刻画对象的性质，同时在输出空间将示例与反映该对象语义信息的类别标记（label）相关联。在待学习对象具有明确、单一的语义，即对象的类别标记唯一时，上述传统监督学习框架已经取得了巨大的成功。真实世界的对象往往并不只具有唯一的语义，而是可能具有多义性的。

在上图的自然场景中，我们难以用唯一的标签去标记它。不管把它归属到哪个类别，都会丧失很多的有效信息。因此，我们引入多标记学习框架去解决这一问题。在多标记学习中每个对象由一个示例描述，该示例具有多个而不再是唯一的类别标记。学习系统的任务是从中学习得到一个多标记分类器，能将所有适合的标记赋予未见示例。

在以往的多标记学习问题中，标记重要度往往是等值的，也就是说，标记y_i对样本的重要度服从二值分布，1表示y_i为样本的相关类别标记，0表示y_i为样本的无关类别标记。但事实情况比这复杂的多，同一示例的相关标签其重要程度很难做到一致性。

将问题进一步思考后，我们从用什么去描述对象转变成如何去描述程度的问题。若重要度信息能在原始数据集中显性的给出，涉及到的就是LDL标记分布学习领域的知识，此领域耿新教授有详细的研究，大家可以通过传送门了解:http://cse.seu.edu.cn/PersonalPage/xgeng/LDL/index.htm 。就目前多标记学习领域的现状而言，常用的多标记数据集往往并没有将这些重要度信息显性的给出，基于直觉思考，如果能够通过算法将这些可能隐性的包含在多标记数据特征空间里的类别标记重要度信息学习出来，也许会帮助我们更好的完成多标记学习任务。因此，我们提出RELIAB算法，将多标记学习问题转化成一个多项式分布学习问题，并通过目标函数 KL距离+经验损失来求解该问题。

与多标记学习框架相似，RELIAB增加了u的定义，u^yl表示第y_l个标记在样本上的重要度。t（x）是阈值函数。通过定义虚拟类别标记y_0，对标记空间进行增广，u^y0代替阈值函数t(x),把相关标记和无关标记依据重要度划分为两个部分。

三个注意点：
1.相关标记重要度无法直接获得。 2.示例之间标签重要度独立的，即instance x 的 u 和 instance y 的 u 不能相互比较。3. 学习出来的标记重要度可以看作标记分布。

二.算法与推导过程

RELIAB方法的两个阶段：

A. Implicit RLI Degree Estimation

利用标记传播技术学习标记重要度，标记传播知识点引用参考文献可查：《Learning with Local and Global Consistency》