半监督情感分类的主动深度学习方法(Neurocomputing2013)

来源:互联网 发布:beat制作软件 编辑:程序博客网 时间:2024/05/21 02:48

半监督情感分类的主动深度学习方法(Neurocomputing2013) Active deep learning method for semi-supervised sentiment classification

文章提出主动深度网络(ADN)的半监督学习框架。ADN用基于标记评论和充足非标记评论的非监督学习的限制玻尔兹曼机(RBM)建立。随后,构建的架构通过基于监督学习指数损失函数的梯度下降微调。在半监督学习框架中,采用主动学习识别用于训练ADN框架的评论。随后用选择的标记评论和所有非标记评论训练ADN框架。进一步地,ADN结合信息密度,提出信息ADN(IADN)方法,可以采用所有非标记评论的信息密度来选择需手动标记的评论。
文章的主要贡献:首先,文章引入了一个新的深度框架,集成深度信任网络的抽象能力和反向传播策略的分类能力。第二,文章提出两个高效的主动学习方法,集成主动学习的评论选择能力和深度框架的分类能力。标记评论选择器和分类器基于同样的框架,为半监督分类任务提供了统一的框架。第三,文章采用半监督学习和主动学习成功地进行情感分类,获得有竞争力的性能。
情感分类可以在词,句子或者文档上进行,通常划分为基于词典的和基于语料的分类方法。文章专注于基于语料的分类方法。当没有足够的训练数据时,可以采用跨领域方法,当没有足够的标记数据时,可以采用半监督学习方法。文章专注于半监督分类方法。

主动深度网络

问题形式化、半监督学习、主动学习和http://blog.csdn.net/abcd2010014357/article/details/48915027中的深度信任网络构建方法一样,一直到式子(24),除去成员函数μA(x)μB(x)部分。
根据参考文献,随机平衡方法,从池中随机取样等量的积极和消极实例,比常规随机方法性能更好。在ADN方法中引入这一“平衡”思想。没有事先标记整个池中的实例,选择等量的积极和消极实例是不可能的。提出一个简单的方法近似积极和消极评论的平衡。每一次迭代,首先,分别计算积极和消极标记评论的数量。第二,用之前迭代训练的深度框架划分池中未标记评论。第三,选择第二步标记的适当数量的积极和消极评论,添加它们到标记数据集,使得标记和未标记评论相等。第四,手动重标新添加的评论保证标记数据集中所有评论标记的准确性。

  • ADN步骤
    每次迭代,ADN框架用所有未标记和标记评论用非监督和监督学习再训练,深度框架的参数用先前迭代的训练结果初始化。然后从未标记池中基于离分隔线的距离选择G个评论,手动标记这些评论,添加它们到标记数据集。下一次迭代,非监督学习用前一次迭代监督阶段训练得到的参数初始化。基于新的标记数据集再一次用监督学习。非监督和监督学习轮流进行,可以互相调整参数,提高深度框架的抽象和分类能力。最后,ADN框架用所有未标记和存在的标记评论再训练。
    由于提出的ADN方法可以用同样的框架主动选择标记数据集和分类评论,避免了选择和训练过程不同框架的障碍。
    训练包括两步:逐层贪心的非监督学习和梯度下降的监督学习,最小化损失函数。

信息ADN

ADN方法没有考虑评论候选的信息密度。存在离分隔线最近,但离两类中心点很远的点,由于离决策边界最近,在ADN方法中被选择,但它在分布中不是一个有代表性的样本。IADN方法将这种情况考虑在内。给定一个未标记池XR,下一个未标记实例根据位置hN(XR)选择。hN(XR)的信息通过它与分隔线同一边的其他样本的平均相似度加权,形式化为:IDi=di(1U1Uj=1,jidis(hN(xi),hN(xj)))βXU=j:xjXR(hN1(x)hN2(x))(hN1(xj)hN2(xj))>0,表示基于当前训练分类器的分类结果,属于同一类x的未标记实例。dis(hN(xi),hN(xj))=|hN1(xi)hN1(xj)|+|hN2(xi)hN2(xj)|,表示hN(xi)hN(xj)的距离。di代表点hN(xi)和分隔线的距离,β控制密度项的相关重要性。需手动标记的训练评论为:s={xi:IDi=min(ID)}
ADN的均衡选择过程没有考虑没有足够积极或消极评论的情况,这种情况将随机选择评论。对于IADN方法,选择所有剩下的积极或消极评论。该分类器可以正确识别大多数的评论。虽然一些临近分隔线的评论错误识别,但对于密度计算影响小,因为这些错误识别的评论同时离这两类评论都近。
如果数据集增长,输入数据的维数和每个隐藏层的隐藏节点数都要增加。进一步地,最后一个隐藏层的单元数比其他隐藏层多,因为最后一个隐藏层是线性的,其他隐藏层都是非线性的,在线性层需要更多的单元来表达一个模型。

实验

为了比较ADN、IADN和之前工作的性能,所有的算法使用交叉验证。
实验表明,用少量的标记评论和适当数量的未标记评论ADN和IADN可以获得有竞争性的性能。

0 0
原创粉丝点击