语料中词语变形的识别方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》

来源:互联网 发布:威客网络兼职打字员 编辑:程序博客网 时间:2024/04/30 17:16

读研期间由于一直在做关于微博方面的一些东西,因此对于如何微博分词以及识别微博中的出现的谐音词、隐义词查阅了一篇资料。今天主要总结一下《Be Appropriate and Funny: Automatic Entity Morph Encoding》这篇文章涉及的一些方法。

该文的主要思想是把我们平时看的论坛、微博中的一些“变形词”映射为在社会中比较敏感和比较正式的原生词。它首先总结了这些变形的一些特点:

(1)变形词是一种使用自然的语言加密来代替机密信息进行交流,类似于“黑话”;

(2) 映射关系不是全射关系,而是多个变形词可以对应一个实体词;

(3) 变形词和实体词之间没有标准的对应关系;

(4)社交网络在产生变形词之间起着至关重要的作用。只有产生的映射词有趣了,才更有可能被广泛传播,成为网络语言的一部分;

(5) 变形词可能随着时间进化很快,例如一些变形词被作为敏感词发现并马上屏蔽掉,新的替代变形词会马上出现。

该文为了找到实体词和变形词之间的对应关系,一共涉及了8种方法进行相应的实验:

(1)语音替换,先把微博语料变成拼音语料pinyin(e),根据http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals涉及的拼音知识,该文主要列出了以下容易混淆的拼音组合:

拼音映射关系bpdtgkzczhchjqshrxhlncchsshzzh
然后根据上表以及拼音本身的合法组合来构造新的拼音语料pinyin(t),比如说“比尔 盖茨”的拼音为pinyin(e) = “Bi Er Gai Ci”,然后可以转换为pinyin(t) = “Bi Er Gai Zi”,可以得到变形词为“鼻耳 盖子”,当然了,一个pinyin(t)所对应的词语不一定是唯一的(事实上大部分情况下都不是唯一的,中华文化博大精深~),则基于以下规则从候选词中找到变形词:

①含有更强的否定意义=》含有更多否定词。

②包括低频出现的稀疏项

(2) 拆字

由于汉字的特性,某些字拆分后的词根依旧是表意的词,因此当给了一个实体名e = C_1…C_n,如果某个字C_k可以被拆分为,并且它们能转变为象形字,比如说”艹“可以转化为”草“。因此变形词就可以产生了,即用替换C_k,

(3)昵称产生方式

主要是根据重复一个实体名字的最后一个字,譬如说”杨幂“可以表示为”幂幂“。

(4)翻译和音译

当给出一个实体e的时候,我们基于包含9,4,015姓名翻译对的词典来对应其英语翻译EN(e)。如果EN(e)中的一个成分是常见的英文词,我们基于94,966的词翻译对词典来找到其对应的汉语翻译,并且使用该汉语翻译替换e,有点乱哈,举个栗子:我们有音译名”拉里 伯德(Larry Bird)“,然后翻译成英文名”Larry Bird“,然后我们发现”Bird“是一个常用词,我们把它翻译为”鸟“,于是乎,”拉里 伯德“就成了”拉里 鸟儿“~~~

(5)语义解释

对于实体名e的名C_k,从新华字典中找到该词的语义解释。如果一句话中的一个单词包括C_k,我们给该词增加e的姓来构造新的变形词。当然了,选择更倾向于positive, negative, rare词。比如说对姓名”薄熙来“,我们构造了变形词”薄 胡来“,因为”来“的语义解释里面包括消极词”胡来“。

(6)历史人物映射

我们首先从网上收集了38个著名历史人物,包括政治家,皇帝,将军,部长(大臣),学者。方法还不懂,稍后补上,是这篇论文里的”Resolving Entity Morphs in Censored Data“)

(7)特征建模

使用Google公司的Word2Vec模型来产生实体的特征。当然使用Word2Vec需要大量的语料。



0 0
原创粉丝点击