自然语言处理1---文本预处理(删除非文本,非数字字符)
来源:互联网 发布:淘宝店铺公告图片尺寸 编辑:程序博客网 时间:2024/05/16 12:34
# -*- encoding:utf-8 -*-import re,HTMLParserimport sysreload(sys)import ossys.setdefaultencoding('utf-8')#输出的内容(爬下来的)是utf-8的形式def file_fill(file_dir): # 得到文本.txt的路径 for root, dirs, files in os.walk(file_dir): for f in files: tmp_dir = '.\Reduced_sport' + '\\' + f # 加上标签后的文本 text_init_dir = file_dir + '\\' + f # 原始文本 # print text_init_dir file_source = open(text_init_dir, 'r') # ok_file = open(tmp_dir, 'a+') ok_file = open(tmp_dir, 'a+') line_content = file_source.readlines() for lines in line_content: text = lines.replace(' ', '').replace('>','') # text=l.decode('ascii').encode('utf-8') ok_file.write(text) file_source.close() ok_file.close() print 'ok'if __name__ == "__main__": folder = file_fill(".\Reduced\sport")
阅读全文
0 0
- 自然语言处理1---文本预处理(删除非文本,非数字字符)
- Pyhon 自然语言处理(二)文本预处理流程
- 非主流自然语言处理——遗忘算法系列(五):文本相似度
- 自然语言处理(1)——文本分词
- 自然语言处理(五 文本相似度)
- 文本挖掘和自然语言处理
- 自然语言处理之:文本分类
- 文本分析--NLTK自然语言处理
- 自然语言处理与文本检索
- 统计自然语言处理--文本分类
- 上传非文本
- 非缓冲文本操作
- 文本预处理学习(1)
- 提取一个单元格中的文本(非数字)-自定义函数
- Java 上传图片(非文本)
- Python自然语言处理--处理原始文本
- Python自然语言处理 3 处理原始文本
- python与自然语言处理(五):中文文本词云
- http你不得不知道的那些事(四)-http报文
- ICD和ICE的区别
- 10.22C语言笔试题
- vue.js 项目 环境搭建、打包发布
- Codeforces#435
- 自然语言处理1---文本预处理(删除非文本,非数字字符)
- Eclipse开发第一个JNI小实例
- Mac上使用C++ 11标准编译程序
- Java垃圾回收机制
- 简述正则表达式的一些匹配规则
- Apsara Clouder云计算专项技能认证的网站建设-部署与发布,你知道吗?
- Java空指针异常
- Mathematics for computer science-Patterns of Proof
- View绘制流程