TextRank 处理短文本获得指定关键字

来源:互联网 发布:java 调用scala 坑 编辑:程序博客网 时间:2024/05/20 02:51

我用的TextRank是python,安装方式参考:

https://github.com/letiantian/TextRank4ZH



当前目录创建 test.txt 文件,输入两行文字:

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法
科达利客户名单来看其前五大客户包括比亚迪ATL三星手机电池供应商)、LG、力神等,名头都不小公司称,其锂电池精密结构件产品广泛应用于华为、三星、LG、中兴、联想等品牌手机,以及比亚迪、宝马、宇通、江淮、腾势、北汽、广汽等品牌的新能源汽车目前锂电


代码如下,默认或的两个关键字,输出格式是 <keyword, keywords, sentence>

#-*- encoding:utf-8 -*-
from __future__ import print_function

import sys
import os
try:
    reload(sys)
    sys.setdefaultencoding('utf-8')
except:
    pass


import codecs
from textrank4zh import TextRank4Keyword, TextRank4Sentence


text = open('test.txt', 'r')
if os.path.isfile("keywords.txt"):
    os.remove("keywords.txt")
keywordsFile = open('keywords.txt', 'w')
tr4w = TextRank4Keyword()
for line in text.readlines():
    line = line.strip()
    line.decode('utf-8')
    tr4w.analyze(text=line, lower=True, window=2)  

    for item in tr4w.get_keywords(2, word_min_len=1):
        words = item.word + "\t"
        keywordsFile.write(str(words))
        #print(item.word)
    keywordsFile.write(line)
    keywordsFile.write('\n')

原创粉丝点击