语料中词语变形的识别方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》
来源:互联网 发布:威客网络兼职打字员 编辑:程序博客网 时间:2024/04/30 17:16
读研期间由于一直在做关于微博方面的一些东西,因此对于如何微博分词以及识别微博中的出现的谐音词、隐义词查阅了一篇资料。今天主要总结一下《Be Appropriate and Funny: Automatic Entity Morph Encoding》这篇文章涉及的一些方法。
该文的主要思想是把我们平时看的论坛、微博中的一些“变形词”映射为在社会中比较敏感和比较正式的原生词。它首先总结了这些变形的一些特点:
(1)变形词是一种使用自然的语言加密来代替机密信息进行交流,类似于“黑话”;
(2) 映射关系不是全射关系,而是多个变形词可以对应一个实体词;
(3) 变形词和实体词之间没有标准的对应关系;
(4)社交网络在产生变形词之间起着至关重要的作用。只有产生的映射词有趣了,才更有可能被广泛传播,成为网络语言的一部分;
(5) 变形词可能随着时间进化很快,例如一些变形词被作为敏感词发现并马上屏蔽掉,新的替代变形词会马上出现。
该文为了找到实体词和变形词之间的对应关系,一共涉及了8种方法进行相应的实验:
(1)语音替换,先把微博语料变成拼音语料pinyin(e),根据http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals涉及的拼音知识,该文主要列出了以下容易混淆的拼音组合:
然后根据上表以及拼音本身的合法组合来构造新的拼音语料pinyin(t),比如说“比尔 盖茨”的拼音为pinyin(e) = “Bi Er Gai Ci”,然后可以转换为pinyin(t) = “Bi Er Gai Zi”,可以得到变形词为“鼻耳 盖子”,当然了,一个pinyin(t)所对应的词语不一定是唯一的(事实上大部分情况下都不是唯一的,中华文化博大精深~),则基于以下规则从候选词中找到变形词:
①含有更强的否定意义=》含有更多否定词。
②包括低频出现的稀疏项
(2) 拆字
由于汉字的特性,某些字拆分后的词根依旧是表意的词,因此当给了一个实体名e = C_1…C_n,如果某个字C_k可以被拆分为和,并且它们能转变为象形字,比如说”艹“可以转化为”草“。因此变形词就可以产生了,即用替换C_k,
(3)昵称产生方式
主要是根据重复一个实体名字的最后一个字,譬如说”杨幂“可以表示为”幂幂“。
(4)翻译和音译
当给出一个实体e的时候,我们基于包含9,4,015姓名翻译对的词典来对应其英语翻译EN(e)。如果EN(e)中的一个成分是常见的英文词,我们基于94,966的词翻译对词典来找到其对应的汉语翻译,并且使用该汉语翻译替换e,有点乱哈,举个栗子:我们有音译名”拉里 伯德(Larry Bird)“,然后翻译成英文名”Larry Bird“,然后我们发现”Bird“是一个常用词,我们把它翻译为”鸟“,于是乎,”拉里 伯德“就成了”拉里 鸟儿“~~~
(5)语义解释
对于实体名e的名C_k,从新华字典中找到该词的语义解释。如果一句话中的一个单词包括C_k,我们给该词增加e的姓来构造新的变形词。当然了,选择更倾向于positive, negative, rare词。比如说对姓名”薄熙来“,我们构造了变形词”薄 胡来“,因为”来“的语义解释里面包括消极词”胡来“。
(6)历史人物映射
我们首先从网上收集了38个著名历史人物,包括政治家,皇帝,将军,部长(大臣),学者。方法还不懂,稍后补上,是这篇论文里的”Resolving Entity Morphs in Censored Data“)
(7)特征建模
使用Google公司的Word2Vec模型来产生实体的特征。当然使用Word2Vec需要大量的语料。
- 语料中词语变形的识别方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》
- HTML entity encoding的解析
- 词语变形练习题
- 词语变形练习
- 词语变形练习题
- 词语变形练习题
- [牛客]词语变形练习题
- 词语变形 -- 算法小结
- Morph动画的转移
- Automatic and No automatic
- 字符串5:词语变形练习题
- 一种没有语料字典的分词方法
- 一种没有语料字典的分词方法
- 语料处理中连字符的处理
- MyEclipse中,some characters cannot be mapped using “ISO-8859-1“ character encoding错误的解决办法
- 删除文件中重复的词语
- tomcat环境中file.encoding的修改方法
- tomcat环境中file.encoding的修改方法
- 2014年中国移动游戏行业研究报告
- hdu 1865 && hdu 2955 (01背包)
- 多个button点击崩溃
- js中浮点数的精度问题
- 经验总结45-springmvc,多数据源
- 语料中词语变形的识别方法《Be Appropriate and Funny: Automatic Entity Morph Encoding》
- 机器学习笔试面试系列算法集锦
- ORA-32004 obsolete and/or deprecated parameter(s) specified
- Calendar计算两个日期之间的天数和周数
- iOS复习笔记9:ARC功能
- HTML5游戏实战:代码都不用敲几行,全图形界面制作弹珠台游戏!
- Unity3d-反编译C#和提取资源
- 不常用的知识点总结
- navicat for mac 无法激活