半监督情感分类的主动深度学习方法（Neurocomputing2013）

来源：互联网发布：beat制作软件编辑：程序博客网时间：2024/05/21 02:48

半监督情感分类的主动深度学习方法（Neurocomputing2013） Active deep learning method for semi-supervised sentiment classification

文章提出主动深度网络（ADN）的半监督学习框架。ADN用基于标记评论和充足非标记评论的非监督学习的限制玻尔兹曼机（RBM）建立。随后，构建的架构通过基于监督学习指数损失函数的梯度下降微调。在半监督学习框架中，采用主动学习识别用于训练ADN框架的评论。随后用选择的标记评论和所有非标记评论训练ADN框架。进一步地，ADN结合信息密度，提出信息ADN（IADN）方法，可以采用所有非标记评论的信息密度来选择需手动标记的评论。
文章的主要贡献：首先，文章引入了一个新的深度框架，集成深度信任网络的抽象能力和反向传播策略的分类能力。第二，文章提出两个高效的主动学习方法，集成主动学习的评论选择能力和深度框架的分类能力。标记评论选择器和分类器基于同样的框架，为半监督分类任务提供了统一的框架。第三，文章采用半监督学习和主动学习成功地进行情感分类，获得有竞争力的性能。
情感分类可以在词，句子或者文档上进行，通常划分为基于词典的和基于语料的分类方法。文章专注于基于语料的分类方法。当没有足够的训练数据时，可以采用跨领域方法，当没有足够的标记数据时，可以采用半监督学习方法。文章专注于半监督分类方法。

主动深度网络

问题形式化、半监督学习、主动学习和http://blog.csdn.net/abcd2010014357/article/details/48915027中的深度信任网络构建方法一样，一直到式子(24)，除去成员函数μA(x)和μB(x)部分。
根据参考文献，随机平衡方法，从池中随机取样等量的积极和消极实例，比常规随机方法性能更好。在ADN方法中引入这一“平衡”思想。没有事先标记整个池中的实例，选择等量的积极和消极实例是不可能的。提出一个简单的方法近似积极和消极评论的平衡。每一次迭代，首先，分别计算积极和消极标记评论的数量。第二，用之前迭代训练的深度框架划分池中未标记评论。第三，选择第二步标记的适当数量的积极和消极评论，添加它们到标记数据集，使得标记和未标记评论相等。第四，手动重标新添加的评论保证标记数据集中所有评论标记的准确性。

ADN步骤
每次迭代，ADN框架用所有未标记和标记评论用非监督和监督学习再训练，深度框架的参数用先前迭代的训练结果初始化。然后从未标记池中基于离分隔线的距离选择G个评论，手动标记这些评论，添加它们到标记数据集。下一次迭代，非监督学习用前一次迭代监督阶段训练得到的参数初始化。基于新的标记数据集再一次用监督学习。非监督和监督学习轮流进行，可以互相调整参数，提高深度框架的抽象和分类能力。最后，ADN框架用所有未标记和存在的标记评论再训练。
由于提出的ADN方法可以用同样的框架主动选择标记数据集和分类评论，避免了选择和训练过程不同框架的障碍。
训练包括两步：逐层贪心的非监督学习和梯度下降的监督学习，最小化损失函数。

信息ADN

ADN方法没有考虑评论候选的信息密度。存在离分隔线最近，但离两类中心点很远的点，由于离决策边界最近，在ADN方法中被选择，但它在分布中不是一个有代表性的样本。IADN方法将这种情况考虑在内。给定一个未标记池XR，下一个未标记实例根据位置hN(XR)选择。hN(XR)的信息通过它与分隔线同一边的其他样本的平均相似度加权，形式化为：IDi=di∗(1U−1∑Uj=1,j≠idis(hN(xi),hN(xj)))β，XU=j:xj∈XR∩(hN1(x)−hN2(x))∗(hN1(xj)−hN2(xj))>0，表示基于当前训练分类器的分类结果，属于同一类x的未标记实例。dis(hN(xi),hN(xj))=|hN1(xi)−hN1(xj)|+|hN2(xi)−hN2(xj)|，表示hN(xi)和hN(xj)的距离。di代表点hN(xi)和分隔线的距离，β控制密度项的相关重要性。需手动标记的训练评论为：s={xi:IDi=min(ID)}。
ADN的均衡选择过程没有考虑没有足够积极或消极评论的情况，这种情况将随机选择评论。对于IADN方法，选择所有剩下的积极或消极评论。该分类器可以正确识别大多数的评论。虽然一些临近分隔线的评论错误识别，但对于密度计算影响小，因为这些错误识别的评论同时离这两类评论都近。
如果数据集增长，输入数据的维数和每个隐藏层的隐藏节点数都要增加。进一步地，最后一个隐藏层的单元数比其他隐藏层多，因为最后一个隐藏层是线性的，其他隐藏层都是非线性的，在线性层需要更多的单元来表达一个模型。

实验

为了比较ADN、IADN和之前工作的性能，所有的算法使用交叉验证。
实验表明，用少量的标记评论和适当数量的未标记评论ADN和IADN可以获得有竞争性的性能。

0 0