对Adaboost和SVM的一点直观认识

来源:互联网 发布:php模拟get提交数据 编辑:程序博客网 时间:2024/05/19 00:49

 接触机器学习最早就是这两个分类器开始的,今天想起了这两个概念,就脑海里滚动公式。想着它们做分类时的样子,想起写点对他们的直观认识,可能有很多不严谨的地方,看客可不要太较真啦。

    说起Adaboost,想像一个包含所有数据点的集合,比如这些点就是每天在地铁站看到的所有女生,这个点里存储了女生x的身高、体重、皮肤颜色、发质、B、W之类不拉不拉不拉的一堆数据。现在问题就来了:什么样的算是美女啊??!!我跟很多同事同学去探讨这个问题,得到许多不一样的回答。A君认为个头要在Th1以上、B要在Th2以上、发质要在Th3以上;B君认为个头不是关键,他觉得只要Thmin<体重/身高<Thmax就是美女;C君又有不同意见,他的眼里认为只要和他的女盆友(S小姐)很像就是美女(大家可以认为我就是C君);D君是我们当中思想最不接地气的一个,他认为我的问题侮辱了他的智商和节操,看女生嘛要看气质,外在什么的都是次要的……最后我把每个人的判断标准(假设Hypotheses)整理起来,我发现他们每个人都有自己的标准,都很强悍地认为这就是美女!可以说他们每个人的判断标准都是一个强分类器了。可是这根本回答不了我的问题:什么样的算是美女啊?

    后来大家吃饭的时候终于达成了共识:我们让每个人说出一个特别不能容忍的标准,比如如果她的体重身高比触犯了B君的最后底线(这个底线比之前的Thmin或者Thmax宽泛多了),他在B君那里是无论如何都不能称为美女了(即使是白富也不可以)。这样他们每个人的标准都宽松了许多许多(弱分类器),然后我们让A君先来判断,他认为是美女的交给B君,B-->C-->D-->……,最后得到的这些所谓美女虽然和每个人的标准都有一定差距,但是大家都觉得这样的结果还说得过去,不至于他们当中的某个人互掐起来。而且这样判断起来速度还蛮快的。

    我问D君你看这个结果何如?D君说这和机器学习中的Adaboost有点像,(⊙o⊙)…

    后来单位来了个E君,E君听说了我们的讨论,给了我一个工具,说把这个交给他们每个人,就能得到每个人对美女的划分了。这个工具还是蛮神奇的!A君拿到它以后,把他的各种要求输入进去了,无非就是各个Th啊,这些在数据点中都有存储,直接划定一条线就搞定了,so easy!A君利用此工具迅速把全公司上下筛选了一遍,真是无良啊。B君利用这个工具时,要用两条直线,依然是so easy!根据C君女友的各个特征此工具画出了多条直线几乎逼近一个曲面总算描绘出了C君的美女概念,almost easy!D君可是给这个工具出了个难题:error C2065: "气质" undeclared identifier !什么是气质啊。D君以为此工具要崩溃了可就错了。他还有个叫做Kernel的利器,从现有的身高、体重等一系列信息中提取出了这些女生所从事的职业、教育背景、家庭环境不拉不拉一大堆比之前还要多得多的数据,然后它在这些数据里画出一个区分平面得到了D君的美女概念标准。

    这下D君大为惊叹,奔走相告且大呼曰:真乃验证美女之神器也!于是D君为它赐名:Super Validation Machine!

1 0
原创粉丝点击