自然语言处理2---jieba分词
来源:互联网 发布:开票软件有哪些 编辑:程序博客网 时间:2024/05/21 19:30
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import osimport jiebafrom sklearn.feature_extraction.text import TfidfVectorizer#sys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-8的形式def file_jieba(file_dir): # 得到文本.txt的路径.\Fractal\Interne for root, dirs, files in os.walk(file_dir): for f in files: tmp_dir = '.\Reduced_internet_preprocess' + '\\' + f # 加上标签后的文本 text_init_dir = file_dir + '\\' + f # 原始文本 # print text_init_dir file_source = open(text_init_dir, 'r') ok_file = open(tmp_dir, 'w+') line_content = file_source.readlines() for lines in line_content: #file_source_decode = lines.decode('GBK') file_source_cut = jieba.cut(lines, cut_all=False) result = ' '.join(file_source_cut) result = result.encode('utf-8') ok_file.write(result) file_source.close() ok_file.close() print 'ok'
阅读全文
0 0
- 自然语言处理2---jieba分词
- jieba分词快速入门 自然语言处理
- 【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
- python与自然语言处理 2结巴分词
- python自然语言处理---jieba中文处理
- 自然语言处理工具包jieba的使用
- jieba 分词源代码研读(2)
- 【java自然语言处理】ansj分词
- 自然语言分词处理,词频统计
- 自然语言处理--中文分词之机械分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- jieba分词
- Java
- Tinker热修复(命令行接入——未知BUG--.java文件修改不成功)
- 嵌入式操作系统 uC/OS-II V2.86 版本的bug
- vue简单实例(todolist)
- CSS3
- 自然语言处理2---jieba分词
- Python如何使用 *arg 和 **kwargs
- CentOS系统安装JDK1.8
- springboot-websocket作为客户端
- 简单分析一下socket中的bind
- 关于调用阿里大鱼发送手机验证码短信同一账号发送多次后失败
- SQL语句实现排名
- C++:输入n个数,通过气泡法从小到大排列顺序(掌握不熟,还请谅解)
- C++调用tensorflow 训练好的模型