python 基于jieba模块进行中文分词词频统计
来源:互联网 发布:数据库前置库怎么配置 编辑:程序博客网 时间:2024/05/17 13:07
jieba官方文档:github
# encoding=utf-8import jiebaimport jieba.analysetxt = open('Chinese.txt',"r")seg_txt=[]for line in txt: #第一行是关键词提取。 #第二行是分词提取 #第三行是关键词提取(与第一行算法有差异) seg_list = jieba.analyse.extract_tags(line.strip('\n\r\t')) #seg_list = jieba.lcut(line.strip('\n\r\t')) #seg_list = jieba.analyse.textrank(line.strip('\n\r\t')) seg_txt.extend(seg_list)#至此所有的中文词以list的形式存到了seg_txt中。 #下面进行词频排序,由高到底。 word_dict={}for item in seg_txt: if item not in word_dict: word_dict[item] = 1 else: word_dict[item] += 1number=list(word_dict.items())number.sort(key=lambda x:x[1], reverse=True)i=0while i<100: print number[i][0],number[i][1] i=i+1
阅读全文
0 0
- python 基于jieba模块进行中文分词词频统计
- Python jieba 中文分词与词频统计
- python进行中文分词、词性标注、词频统计
- Python分词模块推荐:jieba中文分词
- Python分词模块推荐:jieba中文分词
- Python分词并进行词频统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
- 使用python jieba库进行中文分词
- python中文分词---jieba
- 【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
- python jieba分词并统计词频后输出结果到Excel和txt文档
- 【python 编程】网页中文过滤分词及词频统计
- 使用python 的结巴(jieba)库进行中文分词
- Python进行词频统计
- Python中文分词组件jieba
- [工具]python中文分词---【jieba】
- Python中文分词组件 jieba
- 原生Ajax的实现
- 远程虚拟康复训练在骨科中的应用--笔记
- IP地址中的保留地址
- 开车最怕这些视野盲区 给你破解答案
- 【转】Android Studio 如何手动更新到最新的gradle,拒绝等待
- python 基于jieba模块进行中文分词词频统计
- SpringBoot 学习记录(六)- maven 打war 包并部署tomcat
- Spark开发-transformations操作
- C# 开源控件DockPanel 使用心得
- 二进制
- 交换两个十六进制数的位置
- java基础——数组操作
- Python reload()函数用法
- 新买的阿里云ECS基本安全运维