【机器学习基石】在何时可以使用机器学习(1~4章)
来源:互联网 发布:心理咨询中文网软件 编辑:程序博客网 时间:2024/06/15 11:05
第一章:The learning problem
1.2 What is Machine Learning(什么是机器学习)
机器学习的过程:从资料出发,然后经过计算,最终得到某一种表现的增进
人类学习:observation → learning→ skill
为什么需要机器学习:
- 一些数据或信息人类无法获取,可能是一些人无法识别的事务,或信息量特别大
- 人的处理满足不了需求,或人类无法在短时间内对大量数据做出判断
- 要有某一种效能某一种表现能够增进(即潜藏的模式是可以学的)
- 有规则,但我们不知道怎么把它们写下来
- 有数据资料
1.3 Applications of Machine Learning(机器学习的应用)
民生六大需求
1.4 Components of Machine Learning(机器学习的组成)
input(输入空间):x ∈ X
output(输出空间):y ∈ Y
target function(目标函数) : f : X → Y (去学习的不知道的模式)
data(training examples) : D = {(x1,y1),(x2,y2),...,(xn,yn)}
hypothesis(表现很好的公式为 g : X → Y)
1.5 Machine Learning and Other Fields
机器学习:使用大量的数据去找出一个g 和目标函数 f 很相近
资料探勘:使用非常大量的资料,试图找出对特点的应用有趣或有用的性质
人工智慧:电脑会做一些聪明的事情
第二章:Learning to Answer Yes/No
2.1 Perceptron Hypothesis Set(感知器的假设集)
对于每个X = {X1,X2,...,Xn}是一个多维度向量,具有各种属性,每个维度有对应的权重Wi
对于h(X) ∈ H ,有:
h的长相为一条线,假设X是二维的,有:
h(X) = sign(W0 + W1X1 + W2X2)
X 表示图上的点,Y表示该点对应应该是圈圈还是叉叉
2.2 Perception Learning Algorithm(PLA)(感知器学习算法)
步骤:
1.随机初始化一个权值向量W
2.按顺序一个一个的查看是否符合条件
3.找到错误进行纠正,直至1~n个点都没有发现错误时停止
2.3 Guarantee of PLA(PLA算法的可行性保障)
线性可分成立条件:
Yn = sign(Wf^T · Xn)
则Yn(t) · Wf^T · Xn(t) ≥ min Yn · Wf^T · Xn > 0
由于 Wf^T · Wt+1 = Wf^T(Wt · Yn(t) · Xn(t))
= Wf^T · Wt + Wf^T · Yn(t) · Xn(t)
> Wf^T · Wt + 0
得 Wf^T 和 Wt+1 越来越接近
又由于只有犯错误的时候才更新,即Yn ≠ sign(Wf^T · Xn)
即 Yn · Wf^T · Xn ≤ 0
|| Wt+1 ||^2 = || Wt + Yn(t) · Xn(t) ||^2
= || Wt ||^2 + 2Wt· Yn(t) · Xn(t) + || Yn(t) · Xn(t) ||^2
≤ || Wt ||^2 +max || Yn(t) · Xn(t) ||^2 +0
此处Xn(t)起关键作用
故Wt+1会缓慢增长,但不会无限增长,因为cos 最大为1,得证
2.4 Non-Separable Data(线性不可分的数据)
- 找出犯错最少的权值的向量:Wg = arg min
- pocket 演算法(口袋演算法):1~3同PLA,第四部进行比较,扔掉不好的
第三章:Types of Learning(学习类型)
3.1 Learning with Different Output Space(从输出空间出发)
binary classification(二元分类):
multiclass classification(多元分类):
regression (回归分类):该问题的输出空间为整个实数集上或者在一定的实数范围内,这和前面讲的分类问题完全不一样,该输出不是一种毫无意义的标记,而是由实际意义的输出值。
bounded regression (有范围的回归分析) :输出空间实在一定的实数范围内的
structured learning (结构学习):我们要的输出空间有某一种结构在里面,我们希望电脑想办法去学到这些结构
3.2 Learning with Different Data Label (从数据出发)
supervised learning(监督式学习):知道数据的输入,同时还知道数据的标记,相当于知道题目同时知道答案
unsupervised learning(非监督式学习):只告诉你题目,不告诉你答案
semi-supervised learning(半监督式学习):通过少量有标记的训练点和大量无标记的训练点达到学习的目的
reinforcement learning (强化学习):通过对一个行为作出奖励或者惩罚,以此获得的输出,进而进行学习
3.3 Learning with Different Protocol (从协议出发)
batch(批量):就是将很多数据一次性地给算法进行学习,最常见的方式
online(在线):就是一点一点将数据传输进去
active(主动):通过主动提出问题让算法解决,可以节省大量的训练和标记消耗
3.4 Learning with Different Input Space(从输入空间出发)
concrete features(具体特征):最大特点就是便于机器学习的处理,也是基础篇中主要讨论的情形。这种情况是人类或者机器通过一定的方式提取获得的,具有实用性
raw features(原始特征):简单的物理特征
abstract features(抽象特征):机器或人类抽取特征,再用特征去学习(没有具体的物理特征给机器学习)
第四章:Feasibility of Learning(学习的可能性)
4.1 Learning is Impossible(学习是不可能的)
no free lunch:我们只能知道数据内学到什么,至于数据外学到什么我们是不知道的
4.2 Probability to the Rescue(可能的补救方式)
Hoeffding Inequallity : 大于误差范围的概率是非常小
其中:ε 为此程度的下界,N表示样本数量
PAC : probably approximately correct 大概差不多是对的
4.3 Connection to Learning(与学习的关系)
小球样本是从罐子中独立随机抽取的输入样本X是从整个数据集D中独立随机选择的
4.4 Connection to Real Learning(与真正学习的关系)
什么叫做不好的资料? Eout 和 Ein相差很大,远比 ε 大,让演算法踩雷
霍夫丁不等式保证的事情是这里没有太多格BAD,总共不好的机率很小,把数据分成很多
不好的数据的范围:
选到不好的演算法的概率是非常小的,故说每一个h都是安全的
学习方法:
M = ∞
- 【机器学习基石】在何时可以使用机器学习(1~4章)
- 机器学习基石笔记4——在何时可以使用机器学习(4)
- 机器学习基石笔记4——在何时可以使用机器学习(4)
- 机器学习基石笔记1——在何时可以使用机器学习(1)
- 机器学习基石笔记1——在何时可以使用机器学习(1)
- 机器学习基石笔记1——在何时可以使用机器学习
- 机器学习基石笔记3——在何时可以使用机器学习(3)
- 机器学习基石笔记2——在何时可以使用机器学习(2)
- 机器学习基石笔记2——在何时可以使用机器学习(2)
- 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)
- 机器学习基石-02-2-PLA何时停下来?
- 机器学习基石笔记--1
- 机器学习基石笔记8——为什么机器可以学习(4)
- 机器学习基石笔记12——机器可以怎样学习(4)
- 机器学习基石笔记8——为什么机器可以学习(4)
- 机器学习基石笔记5——为什么机器可以学习(1)
- 机器学习基石笔记9——机器可以怎样学习(1)
- 机器学习基石笔记5——为什么机器可以学习(1)
- Android打开手机QQ与指定用户聊天界面,打开指定用户的微博页面,打开指定用户的支付宝转账页面
- 阿里这次要“让天下无闲置”,闲鱼推信用速卖
- 《剑指offer》刷题笔记(链表):链表中环的入口结点
- Photon(二)
- Spring boot集成Swagger2,解决页面不显示的问题
- 【机器学习基石】在何时可以使用机器学习(1~4章)
- 图片 (免费的可商业使用的图片素材)
- 前端基础之JS(一)
- dedecms主要目录结构
- 使用多线程优化双重for循环校验
- jQuery+Ajax+PHP+Mysql实现分页显示数据
- Android 面试资料集锦
- select使用方法
- Leetcode 392.Is Subsequence(第十一周作业)