Machine learning学习笔记<三>

来源：互联网发布：库里15到16赛季数据编辑：程序博客网时间：2024/06/08 10:00

机器学习的种类

一、从输出数据类型的角度

1.就像我们笔记二中所说那样，输出就两种可能正确或者错误，转化为数学上的描述就是1或者0.这种情况我们称之为二分类，比如：感知器（PLA）就可以解决二分类问题。
2.输出也可能是多种类别的，比如：我们要识别0-9这十个数字，那么输出肯定就有十种可能了。类似这种我们称之为多分类问题。
3.前面两种输出都是离散的种类，那输出会不会是连续的呢？有可能哦。比如：我们对要某首歌曲进行打分，打分区间是0-100，这样输出就可能是0-100间任意一个实数。这种我们称之为回归问题。
4.还有一种比较特别的，在自然语言处理中用的比较多的就是结构性问题，比如：我输入一个句子，如：I LOVE YOU，想要输出这个句子中各个词性的组合，那么输出就是y = {pronoun+verb+noun}。类似于这样的，我们称之为结构性学习问题，着眼于整体结构。
其中的分类问题和回归问题是比较主流的。

二、从输入数据标签的角度

先举个例子，然后依托这个例子引出各种机器学习方法。我们知道我国内陆的硬币有三种，一元、五角、一角。其中一元最大也最重。假设我们现在有一堆这三种硬币的样本。
1.如果我们对每个硬币都打上标签，也就是注明它是一元还是五角还是一角。对于机器来说如果我们选取硬币的大小和重量作为特征输入，对应每个硬币都有正确标签的。机器可以知道自己每次的判断正确与否。这种我们称之为监督学习。
2.相对于监督学习，如果我们只对部分硬币打标，剩余一部分不打标，然后作为样本集喂给机器，这种叫做半监督学习。
3.无监督学习，顾名思义就是完全不打标，让机器自己去学习然后分出自己认为正确的类别。
4.强化学习，比如：我想要训练一只小狗坐下，当我说“坐下”时，它却走开了，那我就批评它，惩罚它，让它认识到这样做是不对的。相反，当我说“坐下”时，小狗很听话的坐下来了，那我可能就给一个骨头什么的，奖励它，让它记住这样做是对的。
其中监督学习是主流。

三、从输入数据方式的角度

1.接着用硬币的例子来说明，如果我一下子把已经打标的硬币全部给机器，让他自己去悟，自己去学。就好比老师给你一本有参考答案的书，让你自己去学一样。这种叫做batch learning。
2.相反，如果我们把硬币一颗一颗的喂给机器，好比老师正常的一节一节讲给你一样，序列性的学习。这种就是online learning。
3.第三种是比较复杂点的，就是机器在学习的过程中可以问你问题，当它遇到不懂的东西时可以问这个事物代表什么意思，就好像学生问问题一样。这种有反馈的学习叫做active learning。
其中batch learning用得最多。

四、从输入数据特征的角度

1.如果输入的是经过人为处理的具体的特征，比如我们上面提取硬币的大小和重量作为特征输入，这种叫做concrete feature，具体的特征输入进行学习。
2.如果输入的就是原始的数据，比如：我们就输入的是一个个硬币的种种参数，自己去提取合适的特征，这种就是raw feature，原始特征。
3.如果输入是更加抽象的，对于一个个硬币我输入的是硬币编号，这个特征更加抽象难懂，当然对机器来说更加难去学习，这种叫做abstract feature。
其中concrete feature 用得最多。

阅读全文

0 0