[weka 开发 15-1] Multi-Label Classification(多标签分类) 介绍

来源:互联网 发布:网络短信诈骗的论文 编辑:程序博客网 时间:2024/06/05 14:31

转自 Koala++'s blog 感谢原作者

Multi-Label是一个比较新的研究方面,可能很多人没有听过。这里我简单地翻译一下Tsoumakas的介绍(http://mlkd.csd.auth.gr/multilabel.html)。

Introduction

Traditional single-label classification is concerned with learning from a set of examples that are associated with a single label l from a set of disjoint labels L, |L| > 1. In multi-label classification, the examples are associated with a set of labels Y in L. In the past, multi-label classification was mainly motivated by the tasks of text categorization and medical diagnosis. Nowadays, we notice that multilabel classification methods are increasingly required by modern applications, such as protein function classification, music categorization and semantic scene classification.

介绍

传统的单标签分类(中国也有翻译成单标记,不过我个人认为还是应该翻译成一个名词)学习是从一个只属于一个标签l的样本集合中学习,其中每一个标签属于一个互斥的标签集合L |L| > 1。在多标签分类中,每个样本属于一个L样本集合的一个子集。在过去,多标签分类由文本分类和医学分析而产生和推动的。现在,我们发现现代的许多应用对多标签分类方法需求持续增长,比如蛋白质分类,音乐归类,和语义场景分类。

原文比较抽象,翻译比较费解,这里再翻译两个Tsoumakas的综述Multi-Label Classification: On View(这是一篇不错的入门论文)中的两个例子:一篇有关基督教教堂对于Da Vinci Code(达芬奇密码,这本书也不错)电影发行反应的新闻文章,可以同时被分类(归类)到Society\Religion(社会\宗教)和Arts\Movies(艺术\电影)。在semantic scene分类中,一张照片可以属于多个概念类别,如它可以同时属于日出和海滩。

http://mlkd.csd.auth.gr/multilabel.html中有数据集和一些已经完成的底层代码,不过作者实现的分类器都是非常Naïve的。因为做多标签分类的人比较少,所以我也不打算在Blog中介绍有关的东西,介绍这一篇是希望能有更多的人一起做多标签分类,再一点就是在我失败的研究生学习中知道了一点没几个人知道的东西,与大家分享。

最后再讲一句多余的,源代码中mulan.examples.CrossValidationExperiment是一个示例,里面的代码基本是自解释的。