【机器学习基石】在何时可以使用机器学习(1~4章)

来源:互联网 发布:心理咨询中文网软件 编辑:程序博客网 时间:2024/06/15 11:05

第一章:The learning problem

1.2 What is Machine Learning(什么是机器学习)

机器学习的过程:从资料出发,然后经过计算,最终得到某一种表现的增进

人类学习:observation → learning→ skill

机器学习:data → ML → improved performance

为什么需要机器学习:

  1. 一些数据或信息人类无法获取,可能是一些人无法识别的事务,或信息量特别大
  2. 人的处理满足不了需求,或人类无法在短时间内对大量数据做出判断
可以使用机器学习的关键:

  1. 要有某一种效能某一种表现能够增进(即潜藏的模式是可以学的)
  2. 有规则,但我们不知道怎么把它们写下来
  3. 有数据资料

1.3 Applications of Machine Learning(机器学习的应用)

民生六大需求

1.4 Components of Machine Learning(机器学习的组成)

input(输入空间):x ∈ X

output(输出空间):y ∈ Y

target function(目标函数) : f : X → Y (去学习的不知道的模式)

data(training examples) : D = {(x1,y1),(x2,y2),...,(xn,yn)}

hypothesis(表现很好的公式为 g : X → Y)

{(Xn,Yn)} from f → ML → g


1.5 Machine Learning and Other Fields

机器学习:使用大量的数据去找出一个g 和目标函数 f 很相近

资料探勘:使用非常大量的资料,试图找出对特点的应用有趣或有用的性质

人工智慧:电脑会做一些聪明的事情


第二章:Learning to Answer Yes/No

2.1 Perceptron Hypothesis Set(感知器的假设集)

对于每个X = {X1,X2,...,Xn}是一个多维度向量,具有各种属性,每个维度有对应的权重Wi

对于h(X) ∈ H ,有: 

h的长相为一条线,假设X是二维的,有:

h(X) = sign(W0 + W1X1 + W2X2)


X 表示图上的点,Y表示该点对应应该是圈圈还是叉叉

2.2 Perception Learning Algorithm(PLA)(感知器学习算法)

步骤:

1.随机初始化一个权值向量W

2.按顺序一个一个的查看是否符合条件

3.找到错误进行纠正,直至1~n个点都没有发现错误时停止


2.3 Guarantee of PLA(PLA算法的可行性保障)

线性可分成立条件:

Yn = sign(Wf^T · Xn)

则Yn(t) · Wf^T · Xn(t) ≥ min Yn · Wf^T · Xn > 0

由于 Wf^T · Wt+1 = Wf^T(Wt · Yn(t) · Xn(t))

                             = Wf^T · Wt + Wf^T · Yn(t) · Xn(t)

                             > Wf^T · Wt + 0

得 Wf^T 和 Wt+1 越来越接近

又由于只有犯错误的时候才更新,即Yn ≠ sign(Wf^T · Xn)

即 Yn · Wf^T · Xn ≤ 0

|| Wt+1 ||^2 = || Wt + Yn(t) · Xn(t) ||^2

                   = || Wt ||^2 + 2Wt· Yn(t) · Xn(t) + || Yn(t) · Xn(t) ||^2

                   ≤ || Wt ||^2 +max || Yn(t) · Xn(t) ||^2 +0

此处Xn(t)起关键作用

故Wt+1会缓慢增长,但不会无限增长,因为cos 最大为1,得证


2.4 Non-Separable Data(线性不可分的数据)

可能存在noise(噪音)
  1. 找出犯错最少的权值的向量:Wg = arg min 
  2. pocket 演算法(口袋演算法):1~3同PLA,第四部进行比较,扔掉不好的

第三章:Types of Learning(学习类型)

3.1 Learning with Different Output Space(从输出空间出发)

binary classification(二元分类):
multiclass classification(多元分类):
regression (回归分类):该问题的输出空间为整个实数集上或者在一定的实数范围内,这和前面讲的分类问题完全不一样,该输出不是一种毫无意义的标记,而是由实际意义的输出值。
bounded regression (有范围的回归分析) :输出空间实在一定的实数范围内的
structured learning (结构学习):我们要的输出空间有某一种结构在里面,我们希望电脑想办法去学到这些结构

3.2 Learning with Different Data Label (从数据出发)

supervised learning(监督式学习):知道数据的输入,同时还知道数据的标记,相当于知道题目同时知道答案
unsupervised  learning(非监督式学习):只告诉你题目,不告诉你答案
semi-supervised learning(半监督式学习):通过少量有标记的训练点和大量无标记的训练点达到学习的目的
reinforcement learning (强化学习):通过对一个行为作出奖励或者惩罚,以此获得的输出,进而进行学习

3.3 Learning with Different Protocol (从协议出发)

batch(批量):就是将很多数据一次性地给算法进行学习,最常见的方式
online(在线):就是一点一点将数据传输进去
active(主动):通过主动提出问题让算法解决,可以节省大量的训练和标记消耗

3.4 Learning with Different Input Space(从输入空间出发)

concrete features(具体特征):最大特点就是便于机器学习的处理,也是基础篇中主要讨论的情形。这种情况是人类或者机器通过一定的方式提取获得的,具有实用性
raw features(原始特征):简单的物理特征
abstract features(抽象特征):机器或人类抽取特征,再用特征去学习(没有具体的物理特征给机器学习)

第四章:Feasibility of Learning(学习的可能性)

4.1 Learning is Impossible(学习是不可能的)

no free lunch:我们只能知道数据内学到什么,至于数据外学到什么我们是不知道的

4.2 Probability to the Rescue(可能的补救方式)

机器学习无法求得近似目标函数f的假设函数g
举例说明:弹珠示例
假设罐子中橙色小球的概率为 μ,那么绿色小球的概率就是 1- μ,其中  μ未知
通过抽样查出的橙色小球比例为 v,绿色小球的比例为1- v,v 是从抽样数据中计算出的,因此为已知值
当样例足够大事,v 和  μ 就会非常接近,假设无法范围为ε 

Hoeffding Inequallity  大于误差范围的概率是非常小

其中:ε 为此程度的下界,N表示样本数量

PAC : probably approximately correct 大概差不多是对的


4.3 Connection to Learning(与学习的关系)

机器学习与统计中的对比,参考自机器学习基石笔记4——在何时可以使用机器学习(4)
机器学习与统计中的对比罐子小球机器学习未知的橙色小球比例μ某一确定的假设在整个X输入空间中,输入向量X满足条件h(X) ≠ f(X) 的占整个输入空间的比例抽取的小球 ∈ 整个罐子中的小球训练输入样本集X ∈ 整个数据集X橙色的小球假设 h 作用于此输入向量X 与给定的输出不相等,即h(X) ≠ f(X) 绿色的小球假设 h 作用于此输入向量X 与给定的输出相等,即 h(X) = f(X) 
小球样本是从罐子中独立随机抽取的输入样本X是从整个数据集D中独立随机选择的

其中N为随机独立抽样的样本数,X为整个输入空间,满足条件为1否则为0,E为取期望值。
对机器学习流程图进行扩展,得到:



虚线表示未知概率P对随机抽样以及概率μ的影响,实现表示已经抽出的训练样本及某一确定的假设对比例 v 的影响
结论:
对任意已确定的假设函数h,对未知的可以通过已知的求出来
霍夫丁不等式:
但是,我们想得到的不是给定一个已确定的假设函数h,通过样本的错误比例来推断出在整个输入空间上的错误概率,二十在整个输入空间上同目标函数f 最接近的假设函数h,即错误率最低,错误比例 Ein 很小即可。
即是,Ein(h) ≈ Eout(h) 结论基础之上,加上 Ein(h)很小,可以退出Eout(h)也很小,即在整个输入空间中 h ≈ f
因为这并不是一个学习问题,而是一个固定假设函数h,判断该假设函数是否满足上述性质,这准确的讲是一种确认(Verification),确实如此,这种形式不能称为学习。


4.4 Connection to Real Learning(与真正学习的关系)

什么叫做不好的资料? Eout 和 Ein相差很大,远比  ε 大,让演算法踩雷

霍夫丁不等式保证的事情是这里没有太多格BAD,总共不好的机率很小,把数据分成很多

不好的数据的范围:

选到不好的演算法的概率是非常小的,故说每一个h都是安全的
学习方法:

M = ∞ 

阅读全文
0 0
原创粉丝点击