【机器学习基石】在何时可以使用机器学习(1~4章)

来源：互联网发布：心理咨询中文网软件编辑：程序博客网时间：2024/06/15 11:05

第一章：The learning problem

1.2 What is Machine Learning(什么是机器学习)

机器学习的过程：从资料出发，然后经过计算，最终得到某一种表现的增进

人类学习：observation → learning→ skill

机器学习：data → ML → improved performance

为什么需要机器学习:

一些数据或信息人类无法获取，可能是一些人无法识别的事务，或信息量特别大
人的处理满足不了需求，或人类无法在短时间内对大量数据做出判断

可以使用机器学习的关键:

要有某一种效能某一种表现能够增进（即潜藏的模式是可以学的）
有规则，但我们不知道怎么把它们写下来
有数据资料

1.3 Applications of Machine Learning(机器学习的应用)

民生六大需求

1.4 Components of Machine Learning(机器学习的组成）

input(输入空间):x ∈ X

output(输出空间):y ∈ Y

target function(目标函数) : f : X → Y （去学习的不知道的模式）

data(training examples) : D = {(x1,y1),(x2,y2),...,(xn,yn)}

hypothesis(表现很好的公式为 g : X → Y)

{(Xn,Yn)} from f → ML → g

1.5 Machine Learning and Other Fields

机器学习：使用大量的数据去找出一个g 和目标函数 f 很相近

资料探勘：使用非常大量的资料，试图找出对特点的应用有趣或有用的性质

人工智慧：电脑会做一些聪明的事情

第二章：Learning to Answer Yes/No

2.1 Perceptron Hypothesis Set(感知器的假设集)

对于每个X = {X1,X2,...,Xn}是一个多维度向量，具有各种属性，每个维度有对应的权重Wi

对于h(X) ∈ H ，有:

h的长相为一条线，假设X是二维的，有：

h(X) = sign(W0 + W1X1 + W2X2)

X 表示图上的点，Y表示该点对应应该是圈圈还是叉叉

2.2 Perception Learning Algorithm(PLA)(感知器学习算法)

步骤：

1.随机初始化一个权值向量W

2.按顺序一个一个的查看是否符合条件

3.找到错误进行纠正，直至1~n个点都没有发现错误时停止

2.3 Guarantee of PLA(PLA算法的可行性保障）

线性可分成立条件：

Yn = sign(Wf^T · Xn)

则Yn(t) · Wf^T · Xn(t) ≥ min Yn · Wf^T · Xn ＞ 0

由于 Wf^T · Wt+1 = Wf^T(Wt · Yn(t) · Xn(t))

= Wf^T · Wt + Wf^T · Yn(t) · Xn(t)

> Wf^T · Wt + 0

得 Wf^T 和 Wt+1 越来越接近

又由于只有犯错误的时候才更新，即Yn ≠ sign(Wf^T · Xn)

即 Yn · Wf^T · Xn ≤ 0

|| Wt+1 ||^2 = || Wt + Yn(t) · Xn(t) ||^2

= || Wt ||^2 + 2Wt· Yn(t) · Xn(t) + || Yn(t) · Xn(t) ||^2

≤ || Wt ||^2 +max || Yn(t) · Xn(t) ||^2 +0

此处Xn(t)起关键作用

故Wt+1会缓慢增长，但不会无限增长，因为cos 最大为1，得证

2.4 Non-Separable Data(线性不可分的数据）

可能存在noise(噪音)

找出犯错最少的权值的向量：Wg = arg min
pocket 演算法(口袋演算法):1~3同PLA，第四部进行比较，扔掉不好的

第三章：Types of Learning(学习类型）

3.1 Learning with Different Output Space(从输出空间出发)

binary classification(二元分类)：
multiclass classification(多元分类)：
regression (回归分类)：该问题的输出空间为整个实数集上或者在一定的实数范围内，这和前面讲的分类问题完全不一样，该输出不是一种毫无意义的标记，而是由实际意义的输出值。
bounded regression (有范围的回归分析) :输出空间实在一定的实数范围内的
structured learning (结构学习):我们要的输出空间有某一种结构在里面，我们希望电脑想办法去学到这些结构

3.2 Learning with Different Data Label (从数据出发)

supervised learning(监督式学习)：知道数据的输入，同时还知道数据的标记，相当于知道题目同时知道答案
unsupervised learning(非监督式学习):只告诉你题目，不告诉你答案
semi-supervised learning(半监督式学习)：通过少量有标记的训练点和大量无标记的训练点达到学习的目的
reinforcement learning (强化学习)：通过对一个行为作出奖励或者惩罚，以此获得的输出，进而进行学习

3.3 Learning with Different Protocol (从协议出发)

batch(批量)：就是将很多数据一次性地给算法进行学习，最常见的方式
online(在线)：就是一点一点将数据传输进去
active(主动)：通过主动提出问题让算法解决，可以节省大量的训练和标记消耗

3.4 Learning with Different Input Space(从输入空间出发)

concrete features(具体特征)：最大特点就是便于机器学习的处理，也是基础篇中主要讨论的情形。这种情况是人类或者机器通过一定的方式提取获得的，具有实用性
raw features(原始特征)：简单的物理特征
abstract features(抽象特征)：机器或人类抽取特征，再用特征去学习（没有具体的物理特征给机器学习）

第四章：Feasibility of Learning(学习的可能性)

4.1 Learning is Impossible(学习是不可能的)

no free lunch:我们只能知道数据内学到什么，至于数据外学到什么我们是不知道的

4.2 Probability to the Rescue(可能的补救方式)

机器学习无法求得近似目标函数f的假设函数g

举例说明：弹珠示例

假设罐子中橙色小球的概率为 μ，那么绿色小球的概率就是 1- μ，其中 μ未知

通过抽样查出的橙色小球比例为 v，绿色小球的比例为1- v，v 是从抽样数据中计算出的，因此为已知值

当样例足够大事，v 和 μ 就会非常接近，假设无法范围为ε

Hoeffding Inequallity : 大于误差范围的概率是非常小

其中：ε 为此程度的下界，N表示样本数量

PAC : probably approximately correct 大概差不多是对的

4.3 Connection to Learning(与学习的关系)

机器学习与统计中的对比，参考自机器学习基石笔记4——在何时可以使用机器学习（4）

机器学习与统计中的对比罐子小球机器学习未知的橙色小球比例μ某一确定的假设在整个X输入空间中，输入向量X满足条件h(X) ≠ f(X) 的占整个输入空间的比例抽取的小球 ∈ 整个罐子中的小球训练输入样本集X ∈ 整个数据集X橙色的小球假设 h 作用于此输入向量X 与给定的输出不相等，即h(X) ≠ f(X) 绿色的小球假设 h 作用于此输入向量X 与给定的输出相等，即 h(X) = f(X)
小球样本是从罐子中独立随机抽取的输入样本X是从整个数据集D中独立随机选择的