读<机器学习的那些事>

来源:互联网 发布:电脑编程与技巧 编辑:程序博客网 时间:2024/06/01 10:08

一篇介绍机器学习领域“民间知识”或者经验的文章,写的挺有趣的,作为一个只会一点点的人,简略记一下一些东西。

1. 学习=表示+评价+优化。

表示就是用什么方法来表示数据,评价就不用说了,优化指的是选择效果最好分类器的搜索方法。

 

2. 机器学习的基本目标是对训练集合中样例的泛化。

 

3. 每个学习器都要有一些数据之外的知识或者假设,才能将数据泛化。如果没有其他的知识,没有学习器会比在所有可能的布尔函数中随机猜测得到的结果更优。

幸运的是,在真实世界中(实际任务中),我们要学习的函数并非均匀的来自所有可能的函数。所以,即使是一些泛泛的假设,比如平滑,相似样例有相似的类别,有限依赖,有限复杂度,能够起很大作用,这也是机器学习如此成功的重要原因。

 

4. 对付过拟合的方法,常用的一个是交叉验证,另一个是对评价函数增加一个正则化项(regularization term)。这样可以惩罚那些包含更多结构的分类器,倾向于更小的那些,从而降低过拟合的可能性。

 

5. 机器学习中,除了过拟合,另一个问题就是维度灾难。机器学习显式或隐式依赖的的基于相似度的推理不适用于高维空间。

有一个效应,可以在一定程度上抵消维度灾难。在大多数应用中,样例在空间中并非均匀分布,而是集中在一个低维流形上面或者附近。

 

6. 机器学习任务成功与否最重要的因素是所使用的特征。通常原始数据不能直接拿来学习,需要从中构建特征。这是机器学习项目的主要内容。

 

7. 效果不够好的两种提高方式,设计更好的算法,或者收集更多的数据。

有大量数据的笨办法胜过少量数据的聪明方法。

 

8. 各种机器学习方法的工作机制基本上是相同的。这个论断可能让你吃惊,但本质上所有学习器都是将临近的样例分到同一个类别中,不同之处在于对于“临近”的定义。

 

9. 学习器可以分为两大类,一类的表示是大小不变的,如线性分类器;另一类的表示会随着数据而增长,如决策树。

 

10. 几乎没有学习器能穷尽搜索整个假设空间。一个在较大的假设空间搜索较少假设的学习器,比在较小空间搜索较多假设的学习器更不容易过拟合。

原创粉丝点击