分类与回归

来源:互联网 发布:管理数据分析 编辑:程序博客网 时间:2024/05/16 04:04
作者:陶韬
链接:https://www.zhihu.com/question/21329754/answer/204957456
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

为什么那么多回答说分类与回归的区别就是离散和连续的区别?

根本不是这样子的啊!

这两者的区别完全不在于连续与否啊,而在于损失函数的形式不同啊!(后文详述)


-------------分割线----------------

前面的很多答案用到了不少生动的例子和理论,从多个角度深刻诠释了什么是分类问题,什么是回归问题,以及如何实现回归与分类任务,但大多数的回答仍没有提及这两者间的本质区别。

个人认为:

“回归与分类的根本区别在于输出空间是否为一个度量空间。”

我们不难看到,回归问题与分类问题本质上都是要建立映射关系:

f(x)\rightarrow y,x\in A, y\in B

而两者的区别则在于:

  • 对于回归问题,其输出空间B是一个度量空间,即所谓“定量”。也就是说,回归问题的输出空间定义了一个度量 d=F(y_{true},y_{pred}) 去衡量输出值与真实值之间的“误差大小”。例如:预测一瓶700毫升的可乐的价格(真实价格为5元)为6元时,误差为1;预测其为7元时,误差为2。这两个预测结果是不一样的,是有度量定义来衡量这种“不一样”的。(于是有了均方误差这类误差函数)。
  • 对于分类问题,其输出空间B不是度量空间,即所谓“定性”。也就是说,在分类问题中,只有分类“正确”与“错误”之分,至于错误时是将Class 5分到Class 6,还是Class 7,并没有区别,都是在error counter上+1。

而非很多回答所提到的“连续即回归,离散即分类”。

事实上,在实际操作中,我们确实常常将回归问题和分类问题互相转化(分类问题回归化:逻辑回归;回归问题分类化:年龄预测问题——>年龄段分类问题),但这都是为了处理实际问题时的方便之举,背后损失的是数学上的严谨性。

原创粉丝点击