co-training学习

来源：互联网发布：华科达网络监控软件编辑：程序博客网时间：2024/06/04 19:21

Blum, A. and T. Mitchell (1998). Combining labeled and unlabeled data with co-training. COLT' 98, New York, NY, USA, ACM.

The paper has been cited over 1000 times, and received the 10 years Best Paper Award at the 25th International Conference on Machine Learning (ICML 2008)

文章：http://repository.cmu.edu/cgi/viewcontent.cgi?article=1181&context=compsci

wiki：http://en.wikipedia.org/wiki/Co-training

Mitchell讲解视频（有ppt）：http://videolectures.net/mlas06_mitchell_sla/

文章提出的问题是怎么给网页分类，labeled数据比较少，unlabeled的很多，怎么用unlabel的来提升分类性能。

每个网页有2种信息，一是网页里的字，二是指向这个网页的链接的字。每种信息算一个view。

假设2个view条件独立，而且每个view都能学出比较准的分类器，co-training就能用unlabeled数据提升弱分类器。

里面说的PAC相关的没大看懂。

作者用二分图来表示他的模型。左边是链接，右边是网页，有链接指着网页的关系，就在二分图里加条边。一个连通的子图是一类的。

实验部分的步骤：

用的朴素贝叶斯分类器。

L是labeled数据，U是unlabeled数据

从U里随机选u个数据得到U'

循环k次：

用L里的数据的第一种特征训练分类器得到h1
用L里的数据的第二种特征训练分类器得到h2

用h1在U’上标记p个正样本和n个负样本
用h2在U’上标记p个正样本和n个负样本

把这些标记的加入到L

随机选2p+2n个U的样本加到U'

用L里的数据的第一种特征训练分类器得到h1