半监督学习(semi-supervised learning)

来源:互联网 发布:it安全工程师 编辑:程序博客网 时间:2024/06/05 16:36

# 半监督学习(semi-supervised learning)


1 introduction

  • why semi-supervised learning?

    收集数据很贵,收集有标签的数据更贵!

  • superviesd:D={(xi,yi)}Ni=1
  • semi-supervised:D={(xi,yi)}Mi=1{xu}Nj=M+1,通常N M
    • 转导推理——Transductive Learning:无标签数据就是测试数据
    • 归纳学习——Inductive Learning:无标签数据不是测试数据

2 Generative model

  • initialzation:θ={P(C1),P(C2),μ1,μ2,}

    • step 1:计算无标签数据的后验概率 Pθ(C1|xu)
    • step 2:更新模型

      P(C1)=N1+xuP(C1|xu)NN1是属于第一类的实例的个数,μ1=1N1xiC1xi+1xuP(C1|xu)xuP(C1|xu)xu

    • 回到step 1

  • maximum likelihood with labelled data:

    • logL(θ)=xilogPθ(xi,yi)
    • Pθ(xi,yi)=Pθ(xi|yi)P(yi)
  • maximum likelihood with labelled + unlabelled data:
    • logL(θ)=xilogPθ(xi)+xulogPθ(xu)
    • Pθ(xu)=Pθ(xu|C1)P(C1)+Pθ(xu|C2)P(C2)

3 Assumption

  • Low-density Separation:分离超平面处数据密度小

    • Self-training:1、从有标签数据中学习一个模型f;2、应用f在无标签数据上得到标签(Pseudo-label);3、从原先无标签数据中取出一些数据加入有标签数据集;4、重复之前的步骤
    • Hard label v.s. soft label:[0.7,0.3]T[1,0]Tor[0.7,0.3]T,soft label没有用!hard label就是用了low-density seperation的假设。
    • Entropy-based Regularization:计算分布的熵来表示分布的集中还是分散,E(yu)=m=1Mymuln(ymu),熵越小越集中,越大越分散。
    • L=xiC(yi,ŷ i)+λxuE(yu)
    • semi-supervised SVM:穷举所有可能的无标签数据
  • Smoothness Assumption:特征接近的数据(在高密度区域若两个数据接近),那么它们有相同的标签

    • Cluster label
    • Graph-based Approach:1、定义 similarity,例如s(xi,xj)=exp(γ||xixj||2);2、添加边:例如KNN/e-neighborhood
    • 定义图的smoothness:S=12i,jwi,j(yiyj)2=yTLyy=[,yi,yj,]T
      LNNL=D(W)W矩阵,
    • L=xiC(yi,ŷ i)+λS

4 Better Representation

  • 找到观察到的事物背后的latent factors(潜在因子),这些东西之后才是better representation
  • 待续……

0 0
原创粉丝点击