3. 机器学习基石-When can Machine Learn?

When can Machine Learn? - Types of Learning

When can Machine Learn? - Types of Learning
- 1. Learning with Different Output Space
  - 1) Binary Classification
  - 2) Multiclass Classification
  - 3) Regression
  - 4) Structured Learning （不熟悉）
- 2. Learning with Different Data Label
  - 1) Supervised Learning
  - 2) Semi-supervised Learning
  - 3) Unsupervised Learning
  - 4) Reinforcement Learning
- 3. Learning with Different Protocol
  - 1) Batch
  - 2) Online
  - 3) Active
- 4. Learning with Different Input Space
  - 1) Concrete Features
  - 2) Raw Features
  - 3) Abstract Features

1. Learning with Different Output Space

介绍类型的输出空间：二值输出（二元分类），多值输出（多元分类），实数输出（回归），结构输出

1) Binary Classification

前两章中提到的银行发信用卡问题就是一个典型的二元分类问题，其输出空间只包含两个标记+1和-1，分别对应着发卡与不发卡。
用符号可以表示为：

g (x) \in {v a l u e 1, v a l u e 2} (1)

常用的算法有：

2) Multiclass Classification

有二元分类，就不难想到多元分类的问题，该类问题输出标签不止两种，而是{1,2,…,K}。这在人们的生活中非常常见，比如给病人症状的分类，购买物品的种类等等，其主要的应用场景就是模式识别。
用符号可以表示为：

g (x) \in {v a l u e 1, v a l u e 2, . . ., v a l u e n} (2)

常用的算法有：

3) Regression

当输出的空间为实数的时候，就属于回归问题，这种输出与二元，多元分类的区别在于，我们无法提前打好标签到输出结果中。应用场景为：病人患病几率，给客户发信用卡的几率等。统计学中对回归问题有很多处理方法，以及评估的方法。
用符号可以表示为：

g (x) \in [a, b] ()

常用的算法有：

4) Structured Learning （不熟悉）

结构化的学习，就是说输出的结果可能是一串特定的结构的数据，比如说语义识别中的语意结构。

常用的算法有：

2. Learning with Different Data Label

不同的数据标记: 标记了输入和输出（监督学习），标记部分数据的输入和输出（半监督学习），什么都不标记（无监督学习），训练模型根据后天的反馈进行调整（增强学习）

常用的算法有：

1) Supervised Learning

知道数据输入的同时还知道数据的标记。就相当于告诉你题目的同时还告诉你答案，让你在这种环境下学习，称之为监督学习（supervised learning）或者叫有师学习（learning with a teacher），之前讨论的一些算法都是这类问题。

常用的算法有：

2) Semi-supervised Learning

半监督学习，它通过少量有标记的训练点和大量无标记的训练点达到学习的目的。这种类型的例子也有很多，比如图像的识别，很多情况下我们不可能把每张图片都做上标记（因为做这种标记需要耗费大量的人力物力，是一种昂贵的行为），此时，使用半监督学习是一种不错的选择。

常用的算法有：

3) Unsupervised Learning

这是一种没有标示（就是没有输出y）的问题，就是不告诉你题目的正确答案让你自己去做题。

常用的算法有：

4) Reinforcement Learning

前面三种学习方式是机器学习中最传统的三种方式，除此之外，通过对一个行为作出奖励或者惩罚，以此获得的输出，进而进行学习，这种学习方式称之为强化学习。

常用的算法有：

3. Learning with Different Protocol

通过不同的方式去提供数据到机器中：一次性给完（batch)，一点一点的输入（online），让机器主动提出问题（active）

1) Batch

批量（batch）学习就是将很多数据一次性的给算法进行学习，是最常见的方式

2) Online

在线（online）学习就是一点一点将数据传输进去，如增强学习；

3) Active

主动（active）学习是主动提出问题让算法解决，可以节省大量的训练和标记消耗。类似于让机器提问题，告诉我们机器有什么问题不会，从而教它

4. Learning with Different Input Space

不同的输入空间:具体特征（Concrete Features），原始特征（Raw Features），抽象特征（Abstract Features）

1) Concrete Features

具体特征（Concrete Features），具体特征最大特点就是便于机器学习的处理，这种情况是人类或者机器通过一定的方式提取获得的，具有实用性。

2) Raw Features

原始特征（Raw Features），如图片的像素等等，是最为常见到的资料，但是需要经过处理，转换成具体特征，才容易使用，实用性不太大。

3) Abstract Features

抽象特征（Abstract Features），如一些ID之类的看似无意义的数据，这就更需要特征的转换、提取等工作（相对于原始特征而言），几乎没有实用性。

阅读全文

2 0