[ACL2017]Adversarial Multi-Criteria Learning for Chinese Word Segmentation

来源:互联网 发布:淘宝开专卖店 编辑:程序博客网 时间:2024/06/05 20:56

任务: 中文词分割,以往的方法是针对一个语料用一种分割标准进行分词,本文同时用八个语料用八种分词标准对句子进行分词, 一般情况下,一个语料遵循一种分割标准.
这里写图片描述
就Figure 1而言, 有两个语料CTB和PKU两个语料,对句子”姚明进入总决赛”的分割就各自按自己的准则分割.
这里写图片描述
本文给出了三个模型,我们只针对model-3(Figure 3 (c))进行解释:X(A)X(B)来自两个不同的语料,两条语料共享一个BiLSTM层,这里需要明确的是:共享层学习到的特征是两个语料中共有的特征,另外两条语料都有一个私有的BiLSTM层, 私有的BiLSTM层应该学习到该语料特有的特征.为防止私有的特征进入共享层,特意特出了对抗训练:看Figure 4
这里写图片描述
共享层的多个time的hi相加求平均,然后feed一个简单的前馈神经网络判断该条语料属于哪个语料库,目的是让这个判别器判断不正确,这样共享层就没有混入该语料的私有特征.
paperweekly给出的该篇文章解析:
求同存异,共创双赢:这种中文分词方法让机器更懂中文
http://baijiahao.baidu.com/s?id=1572603019433857&wfr=spider&for=pc

阅读全文
0 0
原创粉丝点击