使用Python抓去网页中的关键字并保存指定文件中
来源:互联网 发布:java web导出excel 编辑:程序博客网 时间:2024/05/20 19:47
本脚本是在python3.3下执行的,很多的脚本是2.X下,他们有不同的地方,调用文件等等很多变化了,注意一下:
GetInfoByRegex.py:
#!/usr/local/bin/python3#coding=utf-8import reimport urllibimport urllib.requestimport osclass GetDataClass: def __init__(self): self.url = r'' #待挖掘数据的网页网址 self.regex = r'' #挖掘使用的正则表达式 self.savePath = r'D:' #挖掘出来的结果保存的路径 self.fileName = r'result' #保存结果的文件名字 def SaveResult(self): status = 'true' html = getPageHtml(self.url) List = getWhatUwant(self.regex,html) outStr='' for x in range(len(List)): outStr += List[x]+'\n' try: fileWrite = open(self.savePath+"\\"+self.fileName,'w') fileWrite.writelines(outStr) except Exception as err: print (err) status = 'false' finally: fileWrite.close() return status#根据输入的网页地址url,获取html源码,将html源码返回def getPageHtml(url): html = urllib.request.urlopen(url) htmlSource = html.read().decode('utf-8') html.close() #注意一下这里需要关闭 return htmlSource#根据正则表达式regex在Source中搜索需要的内容,将结果返回def getWhatUwant(regex,Source): resultList = re.findall(regex,Source) return resultListif __name__ == '__main__': getData = GetDataClass() getData.url = 'http://www.baidu.com' #input('请输入url:') getData.regex = '<body>.*</body>' #input('请输入查找数据的正则表达式:') getData.savePath = 'd:\\python' #input('请输入保存结果路径:') getData.fileName = 'info.txt' #input('请输入保存结果文件名:') status = getData.SaveResult() if status == 'false': print ('操作失败') else: print ('操作成功') ''' getData = GetDataClass() getData.url = input('请输入url:') getData.regex = input('请输入查找数据的正则表达式:') getData.savePath = input('请输入保存结果路径:') getData.fileName = input('请输入保存结果文件名:') '''在其他Python脚本中调用该文件中的类,可以这样:
#!/usr/local/bin/python3#coding=utf-8import GetInfoByRegeximport ostry: getData1 = GetInfoByRegex.GetDataClass() getData1.url = 'http://www.baidu.com' #input('请输入url:') getData1.regex = '<body>.*</body>' #input('请输入查找数据的正则表达式:') getData1.savePath = 'd:\\python' #input('请输入保存结果路径:') getData1.fileName = 'info.txt' #input('请输入保存结果文件名:') status = getData1.SaveResult() if status == 'false': print ('操作失败') else: print ('操作成功')except Exception as e: print (e)需要注意的地方:
001:环境变量的设置:
1. 首先需要在系统中注册python环境变量:假设python的安装路径为c:\python2.6,则修改我的电脑->属性->高级->环境变量->系统变量中的PATH为:
(为了在命令行模式下运行Python命令,需要将python.exe所在的目录附加到
PATH=PATH;c:\python26
上述环境变量设置成功之后,就可以在命令行直接使用python命令。或执行"python *.py"运行python脚本了。
2. 此时,还是只能通过"python *.py"运行python脚本,若希望直接运行*.py,只需再修改另一个环境变量PATHEXT:
PATHEXT=PATHEXT;.PY;.PYM
- 使用Python抓去网页中的关键字并保存指定文件中
- python抓去网页一部分
- python 抓去指定网页以及该网页上所有链接
- python 抓包保存为pcap文件并解析
- 定时抓取网页,并保存到指定文件
- 使用python读取.txt文件并保存到Excel中
- Python将文本去空格并保存到txt文件中
- Python 爬虫网页抓图保存
- 使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中
- Python获取网页源码并保存为文件Demo
- tcpdump抓包,并保存为文件
- python抓取网页中图片并保存到本地
- python抓取网页中图片并保存到本地
- python获取网页中所有图片并筛选指定分辨率
- 抓取网页并存储在指定的文件中
- 读取关键字配置文件,并将关键字放入到一个列表中(去重复去和空格)--PYTHON
- Python抓网页生成Excel文件
- 在linux中使用命令,根据文件名中的关键字查询文件,并按时间排序
- 最好的一篇关于Log4j的使用的文章
- 清华人都如此努力,那我们呢?
- 笔记本WIN7系统登录不进去(ad05n)
- SVN目录权限细粒度控制
- TestNG+Ant自动运行测试
- 使用Python抓去网页中的关键字并保存指定文件中
- Java 字符串操作封装
- 输入n及n个整数(n不超过20),输出这n个数的平均值
- Python正则表达式指南
- Makefile 条件判断
- C++笔记(1)explicit构造函数
- cocos2dx-2.2 cocostudio 骨骼动画demo制作过程
- Mysql分区
- fzu——Problem 2089 数字游戏