程序博客网 > it安全工程师

半监督学习（semi-supervised learning）

来源：互联网发布：it安全工程师编辑：程序博客网时间：2024/06/05 16:36

# 半监督学习（semi-supervised learning）

1 introduction

why semi-supervised learning?

收集数据很贵，收集有标签的数据更贵！
superviesd：D={(xi,yi)}Ni=1
semi-supervised：D={(xi,yi)}Mi=1∪{xu}Nj=M+1，通常N≫ M
- 转导推理——Transductive Learning：无标签数据就是测试数据
- 归纳学习——Inductive Learning：无标签数据不是测试数据

2 Generative model

initialzation：θ={P(C1),P(C2),μ1,μ2,∑}
- step 1：计算无标签数据的后验概率 Pθ(C1|xu)
- step 2：更新模型
  
  P(C1)=N1+∑xuP(C1|xu)N ，N1是属于第一类的实例的个数，μ1=1N1∑xi∈C1xi+1∑xuP(C1|xu)∑xuP(C1|xu)xu
- 回到step 1
maximum likelihood with labelled data：
- logL(θ)=∑xilogPθ(xi,yi)
- Pθ(xi,yi)=Pθ(xi|yi)P(yi)
maximum likelihood with labelled + unlabelled data：
- logL(θ)=∑xilogPθ(xi)+∑xulogPθ(xu)
- Pθ(xu)=Pθ(xu|C1)P(C1)+Pθ(xu|C2)P(C2)

3 Assumption

Low-density Separation：分离超平面处数据密度小
- Self-training：1、从有标签数据中学习一个模型f∗；2、应用f∗在无标签数据上得到标签（Pseudo-label）；3、从原先无标签数据中取出一些数据加入有标签数据集；4、重复之前的步骤
- Hard label v.s. soft label：[0.7,0.3]T→[1,0]Tor[0.7,0.3]T，soft label没有用！hard label就是用了low-density seperation的假设。
- Entropy-based Regularization：计算分布的熵来表示分布的集中还是分散，E(yu)=−∑m=1Mymuln(ymu)，熵越小越集中，越大越分散。
- L=∑xiC(yi,ŷ i)+λ∑xuE(yu)
- semi-supervised SVM：穷举所有可能的无标签数据
Smoothness Assumption：特征接近的数据（在高密度区域若两个数据接近），那么它们有相同的标签
- Cluster → label
- Graph-based Approach：1、定义 similarity，例如s(xi,xj)=exp(−γ||xi−xj||2)；2、添加边：例如KNN/e-neighborhood
- 定义图的smoothness：S=12∑i,jwi,j(yi−yj)2=yTLy，y=[…,yi,…yj,…]T
  L：N∗N，L=D(W)−W矩阵,
- L=∑xiC(yi,ŷ i)+λS

4 Better Representation

找到观察到的事物背后的latent factors（潜在因子），这些东西之后才是better representation
待续……

0 0

it安全工程师

it安全工程师

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子怎么制作桑葚酒桑葚树的叶子桑葚果酱的做法桑葚酒图片桑葚膏制作方法桑椹膏对男人的功效桑椹酒的功效与作用桑椹酒家庭的制作方法桑葚酒怎么做自酿桑葚酒鸡酒的功效桑椹酒怎么泡猴头菇酒陈皮酒的功效枸杞红枣酒的功效自制桑椹酒中药酒女贞子新鲜桑葚酒桑葚泡酒用什么酒好桑葚酱的家庭做法桑葚酱桑甚泡酒功效与作用桑甚树苗桑甚泡水功效与作用农家桑田赋毛小北桑皮的功效与作用桑白皮汤桑白皮汤方歌桑白皮功效桑白皮疤痕膏多少钱桑白皮洗头的正确方法桑白皮萃取液桑白皮的功效与作用桑白皮减肥桑白皮泡水喝的功效生桑白皮的功效与作用桑白皮生发桑白皮洗头能生发吗密桑白皮功效与作用桑白皮能生发吗桑白皮防脱发