python3.4.3实现txt文本指定字符提取
来源:互联网 发布:帝国cms采集插件下载 编辑:程序博客网 时间:2024/06/05 21:13
TXT文档中提取指定文本
在每天上班的路上,都会在地铁上看看高晓松的《鱼羊野史》。很有意思的一本书,口头语言记录成册,来自《晓松奇谈》。每天都会按着日期看,今天是哪一天就翻到哪一天,看看历史上的今天发生了什么事,大千世界,天文地理,古今中外,体育娱乐,历史趣闻,明星轶事,无所不包,无所不有。总有一款你喜欢的。内容斑杂却生动有趣,今天批评历史罪人,痛骂汉奸走狗,明日歌颂名族英雄,赞美时代伟人,好不趣味连连。书中涉及到很多电影和书籍。发现都是用书名号“《》”包含起来的,于是心血来潮,试了试用新学的python将所有电影和书籍名提取出来。
1.提取文本思路
step 1: 首先读取文件
step 2: 读取出的str转换为list
step 3: 查询字符“《”,当查到时,在当前索引号index后30个字符范围内查找“》”,并将这段字符用list的append()方法添加进一个新的list,插入“》”后插入换行符号”\n“
step 4: 新生成的的list转换为str
step 5: 生成新文档
2.demo
#!/bin/python3TXTtemp = open("fishandsheephistory.txt","r+")txtbuffer=TXTtemp.read()#i=0oldlist=['']newlist=['']#for txtchar in txtbuffer:# oldlist.append(txtchar)# i=i+1oldlist=list(txtbuffer)for index in range(len(txtbuffer)): if oldlist[index]=="《": for j in range(30): if oldlist[index+j]=="》": newlist.append("》") newlist.append("\n") j=0 break newlist.append(oldlist[index+j])print(newlist)strlist="".join(newlist)txtnew=open("newtxt.txt","w")txtnew.write(strlist)txtnew.close()TXTtemp.close()
3.结果与改进思路
简单的一段小demo,涉及Python3文件读写,open(),write()方法的使用,list与str的转换。不过主要思维逻辑还是采用C的数组操作思想,理想的用法应该是导入re模块,采用正则表达式才是最优的,奈何自己正则没学好,以后会尝试改进。而且提取出来会存在很多重复,下一步就要去重。
贴一个资源网站:
超详细python项目收集
阅读全文
0 0
- python3.4.3实现txt文本指定字符提取
- python3.4.3下逐行读入txt文本并去重
- charAt方法 -- 提取指定字符
- 逐行提取txt文本中的字符串
- 从指定文本中提取图片
- 【Javascript】提取指定数目的字符substr()
- javascript 提取指定数目的字符substr()
- 提取指定数目的字符substr()
- python提取图像的名字*.jpg到txt文本
- python3 提取文本中的手机号以及其他数字
- C#实现字符字模提取
- python下在txt指定行追加文本
- Java实现Txt文本的分割
- Qt实现数据文本保存TXT文件
- python 加载txt文本实现登录
- Python3实现文本中字母的统计
- VC++从txt文本中读取字符和数字
- 22、Power Query-文本字符的精确提取
- 基于数组的ArrayList
- 图书管理系统1---登录功能实现
- (再续).net分页控件webdiyer:aspnetpager与gridview联用
- ubuntu 15.10 升级 到Ubuntu 16.04.3 LTS
- 公交车移动电视广告背景音乐
- python3.4.3实现txt文本指定字符提取
- OpenCV2编程手册笔记之 5.6GrabCut提取前景
- js使用的工具方法(不断积累)!!
- selinux-概念
- 我与插值萍水相逢续(2): 插值用于数据缩放存在的问题及解决方法
- _STA 主要用于判断当前设备是否存在
- python装饰器简介---这一篇也许就够了
- 动态内存分配
- javascript中的深拷贝和浅拷贝