语料中词语变形的识别方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》

来源：互联网发布：威客网络兼职打字员编辑：程序博客网时间：2024/04/30 17:16

读研期间由于一直在做关于微博方面的一些东西，因此对于如何微博分词以及识别微博中的出现的谐音词、隐义词查阅了一篇资料。今天主要总结一下《Be Appropriate and Funny: Automatic Entity Morph Encoding》这篇文章涉及的一些方法。

该文的主要思想是把我们平时看的论坛、微博中的一些“变形词”映射为在社会中比较敏感和比较正式的原生词。它首先总结了这些变形的一些特点：

（1）变形词是一种使用自然的语言加密来代替机密信息进行交流，类似于“黑话”；

（2）映射关系不是全射关系，而是多个变形词可以对应一个实体词；

（3）变形词和实体词之间没有标准的对应关系；

（4）社交网络在产生变形词之间起着至关重要的作用。只有产生的映射词有趣了，才更有可能被广泛传播，成为网络语言的一部分；

（5）变形词可能随着时间进化很快，例如一些变形词被作为敏感词发现并马上屏蔽掉，新的替代变形词会马上出现。

该文为了找到实体词和变形词之间的对应关系，一共涉及了8种方法进行相应的实验：

（1）语音替换，先把微博语料变成拼音语料pinyin(e)，根据http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals涉及的拼音知识，该文主要列出了以下容易混淆的拼音组合：

拼音映射关系bpdtgkzczhchjqshrxhlncchsshzzh
然后根据上表以及拼音本身的合法组合来构造新的拼音语料pinyin(t)，比如说“比尔盖茨”的拼音为pinyin(e) = “Bi Er Gai Ci”,然后可以转换为pinyin(t) = “Bi Er Gai Zi”,可以得到变形词为“鼻耳盖子”，当然了，一个pinyin(t)所对应的词语不一定是唯一的（事实上大部分情况下都不是唯一的，中华文化博大精深~）,则基于以下规则从候选词中找到变形词：

①含有更强的否定意义=》含有更多否定词。

②包括低频出现的稀疏项

（2）拆字

由于汉字的特性，某些字拆分后的词根依旧是表意的词，因此当给了一个实体名e = C_1…C_n,如果某个字C_k可以被拆分为和，并且它们能转变为象形字，比如说”艹“可以转化为”草“。因此变形词就可以产生了，即用替换C_k，

（3）昵称产生方式

主要是根据重复一个实体名字的最后一个字，譬如说”杨幂“可以表示为”幂幂“。

（4）翻译和音译

当给出一个实体e的时候，我们基于包含9,4,015姓名翻译对的词典来对应其英语翻译EN(e)。如果EN(e)中的一个成分是常见的英文词，我们基于94,966的词翻译对词典来找到其对应的汉语翻译，并且使用该汉语翻译替换e,有点乱哈，举个栗子：我们有音译名”拉里伯德（Larry Bird）“，然后翻译成英文名”Larry Bird“，然后我们发现”Bird“是一个常用词，我们把它翻译为”鸟“，于是乎，”拉里伯德“就成了”拉里鸟儿“~~~

（5）语义解释

对于实体名e的名C_k，从新华字典中找到该词的语义解释。如果一句话中的一个单词包括C_k，我们给该词增加e的姓来构造新的变形词。当然了，选择更倾向于positive, negative, rare词。比如说对姓名”薄熙来“，我们构造了变形词”薄胡来“，因为”来“的语义解释里面包括消极词”胡来“。

（6）历史人物映射

我们首先从网上收集了38个著名历史人物，包括政治家，皇帝，将军，部长（大臣），学者。方法还不懂，稍后补上，是这篇论文里的”Resolving Entity Morphs in Censored Data“)

（7）特征建模

使用Google公司的Word2Vec模型来产生实体的特征。当然使用Word2Vec需要大量的语料。

0 0