python 基于jieba模块进行中文分词词频统计

来源:互联网 发布:数据库前置库怎么配置 编辑:程序博客网 时间:2024/05/17 13:07

jieba官方文档:github

# encoding=utf-8import jiebaimport jieba.analysetxt = open('Chinese.txt',"r")seg_txt=[]for line in txt:    #第一行是关键词提取。    #第二行是分词提取    #第三行是关键词提取(与第一行算法有差异)    seg_list = jieba.analyse.extract_tags(line.strip('\n\r\t'))    #seg_list = jieba.lcut(line.strip('\n\r\t'))    #seg_list = jieba.analyse.textrank(line.strip('\n\r\t'))    seg_txt.extend(seg_list)#至此所有的中文词以list的形式存到了seg_txt中。  #下面进行词频排序,由高到底。 word_dict={}for item in seg_txt:            if item not in word_dict:                word_dict[item] = 1            else:                word_dict[item] += 1number=list(word_dict.items())number.sort(key=lambda x:x[1], reverse=True)i=0while i<100:    print number[i][0],number[i][1]    i=i+1
原创粉丝点击