[ACL2017]Adversarial Multi-Criteria Learning for Chinese Word Segmentation

来源：互联网发布：淘宝开专卖店编辑：程序博客网时间：2024/06/05 20:56

任务: 中文词分割，以往的方法是针对一个语料用一种分割标准进行分词，本文同时用八个语料用八种分词标准对句子进行分词, 一般情况下，一个语料遵循一种分割标准．
这里写图片描述
就Figure 1而言，　有两个语料CTB和PKU两个语料，对句子”姚明进入总决赛”的分割就各自按自己的准则分割．

本文给出了三个模型，我们只针对model-3（Figure 3 (c)）进行解释：X(A) 和X(B)来自两个不同的语料，两条语料共享一个BiLSTM层，这里需要明确的是：共享层学习到的特征是两个语料中共有的特征，另外两条语料都有一个私有的BiLSTM层, 私有的BiLSTM层应该学习到该语料特有的特征．为防止私有的特征进入共享层，特意特出了对抗训练：看Figure 4
这里写图片描述
共享层的多个time的hi相加求平均，然后feed一个简单的前馈神经网络判断该条语料属于哪个语料库，目的是让这个判别器判断不正确，这样共享层就没有混入该语料的私有特征．
paperweekly给出的该篇文章解析：
求同存异，共创双赢：这种中文分词方法让机器更懂中文
http://baijiahao.baidu.com/s?id=1572603019433857&wfr=spider&for=pc

阅读全文

0 0