关键词抽取工具-THUtag 个人使用心得

来源：互联网发布：网络运维工程师简历编辑：程序博客网时间：2024/06/09 15:16

THUTag是清华大学自然语言处理与社会人文计算实验室实现的，具有关键词抽取与社会标签推荐工具包，提供关键词抽取、社会标签推荐功能，包括TextRank、ExpandRank、Topical PageRank（TPR）、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。

Xinxiong Chen, Deming Ye, Xiance Si, Zhiyuan Liu and Maosong Sun. THUTag: A Package for Keyphrase Extraction and Social Tag Suggestion. 2016.

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

其readme文档提供的算法准确率如下：

其自带数据“Douban Post Dataset (M_d=3,select the three tags with the highest value)，数据格式：

dataType=DoubanPost :

{"doubanTags":{"tag1":weight,"tag2":weight,"tag3":weight,...},"id":"document id","content":"document content","tags":[empty],"timestamp":0,"resourceKey":"","title":"document title","userId":"","extras":""} (Focus on books)

Example :

{"doubanTags":{"文化":5,"献给非哲学家的小哲学":6,"哲学":29,"法国":17},"id":"1000047","content":"全球化是必然趋势？仁者见仁，智者见智。有人惊呼：“狼来了！”有人担忧：“怎么办？”还有人在思考：“对世界来说，经济可以全球化，甚至货币也可以一体化，但文化则要鼓励多元化。”是的，只有本着文化多元化的精神，在尊重其他民族文化的同时，自身才能获得不断的发展与丰富。法国人做出了自己的探索与努力。今天，您面前的这一套“法兰西书库·睿哲系列”为您打开了一扇沟通的窗口。他山之石，可以攻玉。我们希望这样的对话可以走得越来越远。","tags":[],"timestamp":0,"resourceKey":"","title":"献给非哲学家的小哲学睿哲系列","userId":"","extras":""} (Demo file is bookPost70000.dat)”

测试结果如下：

Algorithm Precision Recall F1

PMI 0.38962 0.45730 0.36692

WTM 0.36828 0.45131 0.35410

KNN 0.33910 0.37885 0.31103

TAM 0.30758 0.34045 0.28093

NaiveBayes 0.27064 0.30223 0.24671

NoiseTagLdaModel 0.20956 0.20757 0.18054

TagLdaModel 0.15756 0.16646 0.14054

对于关键字抽取算法，其readme文档中提供的准确率结果如下：

其自带数据集“Post Dataset ，(M_d=2,select the two keywords with the highest value)，数据格式：（之前认为是解析html，后来发现错了，解析的是json，尴尬）

dataType=KeywordPost :

{"date": "news date","summary":"news summary"，"source":"news source","id":"document id","content":"document content","title":"news title","resourceKey":"","extras":"","userId":"","tags":["tag1","tag2","tag3",...]} (Focus on news)

Example :

{"date":"2010-6-12 3:39:39","summary":"核心提示：重庆市政府公众信息网发布消息称，经2010年5月13日市政府第70次常务会议通过，给予文强、陈洪刚二人行政开除处分。","source":"http://news.163.com/10/0612/03/68USU60D000146BD.html","id":"0","content":"重庆晚报6月11日报道昨日，市政府公众信息网发布消息称，经2010年5月13日市政府第70次常务会议通过，给予文强、陈洪刚二人行政开除处分。\n今年4月14日，市第五中级人民法院以受贿罪，包庇、纵容黑社会性质组织罪，巨额财产来源不明罪，强奸罪数罪并罚判处文强死刑，剥夺政治权利终身，并处没收个人全部财产。5月21日，市高级人民法院对文强案二审宣判，依法驳回文强上诉，维持一审的死刑判决。\n2月25日，市公安局交警总队原总队长陈洪刚受贿案在市第五中级人民法院一审宣判。陈洪刚因犯受贿，包庇、纵容黑社会性质组织，巨额财产来源不明，伪造居民身份证罪，数罪并罚，被判处有期徒刑20年，没收个人财产40万元人民币，追缴赃款326万余元及不明来源财产584万余元。记者李伟\n","title":"重庆市政府给予文强行政开除处分","timestamp":0,"resourceKey":"","userId":"","tags":["文强","重庆"],"extras":""} (Demo file is KeywordPost.dat)“

Algorithm Precision Recall F1

WAM 0.30735 0.43726 0.34747

WAMsample 0.29424 0.41814 0.33254

WAMwithtitleInstead 0.26571 0.37286 0.29849

ExpandRankKE 0.22818 0.31578 0.25461

TPR 0.21913 0.3060 0.24551

TFIDF 0.25459 0.20083 0.21876

Textpagerank 0.19833 0.22971 0.20837

--------------------------------------------------------------------------------------------------------------------------------------------------------------------

实际使用效果：（测试了两个方法）

一、ExpandRank

原文：Single Document Keyphrase Extraction Using Neighborhood Knowledge Xiaojun Wan and Jianguo Xiao

思想：textrank的扩展，试图解决仅依靠单篇文章结构的共现窗口产生的噪声问题。对每一篇文章都选取一定数目的邻居文章作为补充信息，作为对单篇文章统计的补充。

步骤：

1.邻居文档的构建：基于相似文章搜索技术

2.关键字抽取,包括：

1）邻居级词语抽取，对邻居文档基于图算法（textrank）构建潜在关键词网络

2）文档级关键词抽取，基于打分函数抽取关键词

对比传统和方法的优势：

一定程度上解决解决了对统计方法提取关键字的依赖，扩展了只依靠单篇文章结构的textrank，提高了准确率。

缺点：

由于邻居文档选取的不确定性会产生语义漂移问题。

（由于readme中提起的报告位置并未生成报告，而且未能看到最后结果文件，并且运行时间超过十分钟仍未结束，所以不知其实际效果如何...）

二.WAM：

原文：Automatic Keyphrase Extraction by Bridging Vocabulary Gap Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun

思想：将关键词抽取问题看成翻译问题，原文和关键此均描述一个对象，只是表述成了不同语言，因此采用统计机器翻译的方法来解决关键词抽取问题。

步骤：

1.抽取标题或者总结，与原文当组成翻译对

2.训练翻译模型：利用词语对其模型，使用统计机器翻译的方法（IBM1），计算给定原文词汇后得道标题中词汇或者总结中词汇的后验概率

3.利用文中提出的公式，实现关键词抽取

对比传统和方法的优势：

一定程度上解决解决了对统计方法提取关键字的依赖，试图解决词汇鸿沟问题（低频关键词抽取或者未现关键词生成问题），提高了准确率。

缺点：

依赖文章标题或总结信息，且依赖翻译模型。

效果：

切分后原文：

卫生部居民健康素养盲目相信养生信息

核心提示卫生部新闻发言人 11 谈到近期备受关注本事表示居民健康素养盲目相信社会所谓养生保健信息

晚报 12 日报卫生部昨天上午召开例行新闻发布会卫生部新闻发言人谈到近期备受关注本事表示老百姓获得健康知识渠道越来越权威科学准确健康知识获取途径不通

分析去年卫生部新闻中心全国居民健康素养调查 48 居民具有健康素养盲目相信社会所谓养生保健信息

多年卫生部非常重视健康教育健康促进工作充分利用手段传播健康知识知识倡导健康文明生活方式促进公众合理营养努力提高群众自我自我防范能力

2009 卫生部卫生部通告形式社会推荐 81 卫生科普图书各方面专家卫生科普卫生保健图书进行平衡检查审查社会推荐

表示今后卫生部进一步加强健康教育健康促进工作有效传播健康知识积极发挥大众媒体作用发挥专家作用特别是培养一大批科普专家

卫生部医疗服务监管司长季度诊疗人次 12 62 人次同比增长出院人数同比增长

关键字抽取效果：

卫生部居民健康素养盲目相信养生信息

*------------------------------------------------------------------------------------------------------------------------------------------------------------------*

THUTag个人体会：

1.工程开源，实现了十四种关于关键词抽取、标签推荐的算法。

2.帮助文档较少，github上有一篇readme，未发现工程性的开发文档，个人感觉类似于实验室中口口相传的内部工具

3.使用者活跃度低，遇到了使用问题求助困难

4.readme提到的部分命令无法使用

5.能写出这个工具的作者们代码能力还是好强的

6.缺乏文档，所以需要从头读代码，学习使用很费劲

7.通俗地讲，没用明白，还是使用其他帮助文档丰富的工具吧.....

本文仅代表个人观点--O(∩_∩)O~

阅读全文

0 0