【Machine Learning】笔记:Semi-supervised learning
来源:互联网 发布:阿根廷04男篮名单 数据 编辑:程序博客网 时间:2024/05/20 12:46
李宏毅老师的课程的笔记。
Introduction
什么是半监督学习?既有有标记数据
- Transductive learning,无标记数据就是 testing data,注意,用了 testing data 的 feature 是没有问题的,用了 label 才会出问题。
- Inductive learning,无标记数据不是 testing data,假设在训练时不知道 testing set.
至于要用哪种,可以看下手上的数据,比如一些比赛中 testing data 已经给出了,那就可以用。
Semi-supervised learning for generative model
监督学习下的 generative model
首先,估计 prior probability
半监督学习下的 generative model
前面部分与监督学习下的操作一样,估计出
- 初始化
θ={P(C1),P(C2),μ1,μ2,Σ} , - 计算未标记数据的 posterior probability
Pθ(C1|xu) , - 更新参数,
P(C1)=N1+∑xuP(C1|xu)N ,μ1=1N1∑xr∈C1xr+1∑xuP(C1|xu)∑xuP(C1|xu)xu ,等等,在做完之后,再回到第二步。
事实上,如果了解 EM 算法,第二步就是 E,第三步就是 M. 这样反复下去,在最终一定会收敛,但收敛的结果与初始化的值有关。
原理
在监督学习下,我们要最大化的概率函数是
在半监督学习下,要最大化的概率函数是
Low-density separation assumption
在用这个假设时,需要假设有一个很明显的区域(low density),能把数据分开。
Self-training
Self-training 是 low density separation 下最典型的方法。
先对有标记的数据训练出一个
这招用在 regression 中,是没有用的,因为用预测出来的数字重新用来做训练,并不会影响模型的参数。
在做 self-training 时,其实就是把某个未标记数据指定一个分类,而在 generative model 中,其实就是把未标记数据对应于各个分类的概率计算出来。两者很相像,前者叫作 hard label,后者叫作 soft label. 那么,到底哪种比较好呢?看情况,比如在用神经网络时,soft label 就没有用了。
Entropy-based Regularization
Self-training 有一个进阶版,就是 entropy-based regularization. 在这样的方法中,我们就不用在预测未标记数据时让它确定属于哪一个,而是用 entropy 来让它属于某一类的几率更大。
定义损失函数
Semi-supervised SVM
将未标记数据穷举所有的分法,然后对每一种分法都进行 SVM,具有最大的间隔和最小误差的那一种。
但是,如果有
smoothness assumption
作出如下假设:
在这里,
这样的假设在有些情况下是很合理的,比如手写数字辨识,
Graph-based Approach
在这样的假设下,就可以用 graph-based approach 的方法来做。
首先需要定义相似度,一般可以用 Gaussian Radial Basis Function (RBF) 来定义:
定义完相似度之后,就可以逐渐把数据点之间相连的边加上去,加边可以用 kNN 或者 e-Neighborhood 的方法来做。然后设置边的权重,和
然后,定义在图上的标记的 smoothness,
具体可参考 J. Weston, F. Ratle, and R. Collobert, “Deep learning via semi-supervised embedding,” ICML, 2008.
- 【Machine Learning】笔记:Semi-supervised learning
- Unsupervised, Semi-Supervised, Supervised Learning
- semi-supervised learning
- Semi-supervised learning
- semi-supervised learning
- Semi-supervised learning
- semi-supervised learning
- Semi-supervised Learning
- Semi-supervised learning
- Semi-supervised Learning Literature Survey
- Supervised learning、Unsupervised learning and Semi-Supervised learning (总结)
- Lecture4: Supervised Machine Learning
- Lecture 2: Supervised machine learning
- Semi-supervised Learning in Gigantic Image Collections
- 半监督学习(semi-supervised learning)
- Semi-Supervised Learning with Generative Adversarial Networks
- 半监督学习(semi-supervised learning)
- 基于DNN的semi-supervised learning
- POI创建及解析Excel
- Unable to connect to database server:specified database is invalid 错误修复方法
- Json格式
- 课程学习周记 第八周
- win7+django1.11.4+python3.6.1部署到apache2.4.27服务器实现局域网访问
- 【Machine Learning】笔记:Semi-supervised learning
- Unity2d组件 Sprite Renderer
- android Binder与AIDL
- 理解和使用systrace
- 高精度加法
- CSU 1810 Reverse (组合计数)
- 二级MySQL数据库程序设计考试大纲(2015年版)
- PAT1006. 换个格式输出整数 (15)
- LVS(一)