用Hyperspace Analogue to Language (HAL)进行短文本扩展

来源:互联网 发布:天堂2手游mac版 编辑:程序博客网 时间:2024/03/29 03:31

HAL是什么我就不解释了,具体可以参考:http://www.zhan5zhan.com/post/6.html

1、何谓短文本

  论坛、博客、微博、聊天记录、问答,都可以认为是短文本。虽然博客、论坛也有很多长文本,但是是少数。

2、短文本难点

  1)不规范、口语化。比如各种简写、各种错字别字。

  2)语境缺失。在专业论坛,各种专有名词,就很难理解。比如暗黑3的“和尚”指代一种角色,“妈咪爱”是婴儿药物。

3、解决思路:补充语境、背景知识

    简写、错字、别字、孤立词,必须放入一个完整语境中,才能理解。如何构造一个对短文本补充的词袋,是问题的关键。

4、HAL的方法

  Hal通过找到词矩阵中,词与词之间共现次数较多的词互为补充。在上面链接中就有例子。

5、pHAL方法

  对HAL的补充,决定共现词对原词是否可以构成“解释”关系,可以有两个因素:离的近、越近表示关系越紧密;出现次数多,两者共同出现次数越多,关系越强。

  因此pHAL和HAL相比,增加了共现概率、共现距离。 

  S(wi|w) = P(wi|w) / L(wi|w) 

  这就是共现公式,当概率越大、距离越短,表明两个词之间关系越紧密。

6、下面是我找到的一些有意思的例子

  • 湘悦    12      大酒店|0.149390|0.30|2.0       北京|0.041757|0.13|3.1  北京市|0.027999|0.09|3.3       预定|0.014967|0.05|3.7  评价|0.014967|0.05|3.7  楼|0.010671|0.02|2.0    预订|0.010540|0.03|3.2         价格|0.006499|0.03|4.2  住宿|0.006499|0.03|4.2  房价|0.006499|0.03|4.2  酒店|0.003430|0.02|5.3  好|0.002217|0.01|5.5
  • 血岭狙击        7       剧情|0.071429|0.14|2.0  狙击杀手|0.047619|0.14|3.0     迅雷|0.047619|0.14|3.0  疑问|0.047619|0.14|3.0  下载|0.035714|0.14|4.0  主演|0.028571|0.14|5.0  史泰龙|0.023810|0.14|6. 0
  • 闵大联  2       医生|0.250000|0.50|2.0  苏州|0.250000|0.50|2.0
  • 中国森林病虫    2       杂志|0.250000|0.50|2.0  征稿|0.166667|0.50|3.0
  • 娜曼丝  1       家纺|0.500000|1.00|2.0
  • 海甸二路        3       陈淑芬|0.111111|0.33|3.0       中医诊所|0.083333|0.33|4.0      搬到|0.066667|0.33|5.0

    比如有人说娜曼丝,如果你不熟悉,你肯定不知道这是什么,但是后面的“家纺”说明这是一个家纺品牌。比如说“血岭狙击”,如果你不了解,你可能以为是游戏、电影、或者电视剧、也有可能是小说,实际上他是史泰龙主演的电影,经常被迅雷下载。

7、这有什么用?

    ok,这很有用,可以扩充短文本,然后用于分类、聚类、推荐系统、相似度计算、语义理解、情感分析、舆论舆情,反垃圾.....


原创粉丝点击