Pandas结合Jieba提取xlsx表格文件高频词汇
来源:互联网 发布:java微服务架构有哪些 编辑:程序博客网 时间:2024/06/05 02:17
import pandas as pdimport jieba.analysedef sort_key(keylist): ''' 高频关键词排序 :param keylist: 关键词列表 :return: ''' percentage_number = int(keylist.count()*percentage) keyword_string = keylist.to_string() res = jieba.analyse.extract_tags(keyword_string, percentage_number) print(percentage_number, res) return resdef write_excel(res_ls, sheet_name, writer): df = pd.DataFrame(res_ls) df.to_excel(writer, sheet_name)def run(sheet_name, writer): tb = pd.read_excel("D:/title.xls", sheet_name) res_ls = {} length = 0 for i in tb: res_ls[i] = sort_key(tb.get(i)) if len(res_ls[i]) > length: length = len(res_ls[i]) # 补齐队列,长度保持一致 for i in res_ls: i_len = len(res_ls.get(i)) if i_len < length: res_ls[i].extend([""] * (length - i_len)) write_excel(res_ls, sheet_name, writer)# 百分比percentage = 0.15writer = pd.ExcelWriter("d:/foo.xlsx")ls = [u"表一", u"表二", u"表三", u"表四", u"表五"]for x in ls: run(x, writer)writer.save()
阅读全文
0 0
- Pandas结合Jieba提取xlsx表格文件高频词汇
- 高频词汇提取
- 高频词汇提取的Java实现
- 高频词汇
- 《程序员》06年9期智慧擂台 :高频词汇提取
- 高频词汇提取的Java实现(转载)
- jieba分词、自定义词典提取高频词、词性标注及获取词的位置
- 用.et文件恢复.XLSX表格
- Cet6高频词汇汇总
- 四级高频词汇
- 英语六级、考研高频词汇
- 掌握GRE高频词汇
- 《程序员》第9期智慧擂台题目——高频词汇提取
- 《程序员》第9期智慧擂台题目——高频词汇提取
- jieba关键词提取算法
- 英语四六级高频词汇
- gre填空高频词汇整理
- GRE阅读中--高频词汇
- MySQL基础(6)——插入数据、更新和删除数据
- Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析
- Jetson TX2 如何搭建opencv3.2+cuda8.0
- 初学者入门学习java的简介笔记(1)
- java线程池Executor
- Pandas结合Jieba提取xlsx表格文件高频词汇
- Linux中防火墙有关操作
- seed随机数---startswith和endswith函数的使用
- <转载>eclipse 配置黑色主题
- 【异常】Cannot connect to the Docker daemon at unix:///var/run/docker.sock.
- 设计模式之代理模式
- STL常用函数复习之————queue
- Tempter of the Bone HDU
- 一个shell脚本写的测试框架