python3爬虫初探(五)之从爬取到保存
来源:互联网 发布:淘宝投诉人工客服 编辑:程序博客网 时间:2024/06/05 17:27
想一想,还是写个完整的代码,总结一下前面学的吧。
import requestsimport re# 获取网页源码url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'data = requests.get(url).text#正则表达式三部曲#<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">regex = r'<img src="(.*?.jpg)"'#匹配网址pa = re.compile(regex)#转为pattern对象ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象,添加到一个列表中并返回#print(ma)#图片网址列表print('本次爬取共获取图片'+str(len(ma))+'张')#列表长度,即找到图片个数i = 0#这里的i, 只是为了给图片命名。。。for imgurl in ma: i += 1 print('正在爬取'+imgurl) imgdata = requests.get(imgurl).content with open(str(i)+'.jpg', 'wb') as f: f.write(imgdata)print('爬取完毕!')
放几张程序输出的图。
阅读全文
1 0
- python3爬虫初探(五)之从爬取到保存
- python3爬虫初探(四)之文件保存
- python3爬虫初探(二)之requests
- python3爬虫初探(六)之EXCEL
- Python3爬虫从入门到自残(三):保存数据
- python3爬虫初探(一)之urllib.request
- python3爬虫初探(三)之正则表达式
- python3爬虫初探(七)使用MySQL
- python3爬虫初探(八)requests
- 网络爬虫项目开发日志(五): 爬虫协议初探
- Python3爬虫(二)保存抓取网页的html
- Python3网络爬虫(五):Python3安装Scrapy
- python3爬虫之旅
- python3爬虫之UserAgent
- python3 网络爬虫(五)scrapy中使用User-Agent
- 爬虫, 从python2 到 python3
- python3 网络爬虫(一)反爬虫之我见
- 爬虫之旅(五)
- JavaScript内存管理机制以及四种常见的内存泄漏解析
- Tomcat 和 IDEA 配置远程调试
- 文件系统,inode,iostat,dstat
- /bin/sh^M: bad interpreter: No such file or directory
- Golang
- python3爬虫初探(五)之从爬取到保存
- 【Java】Java中webservice的简单理解
- 一个简单的零配置命令行HTTP服务器
- sublime侧边栏放大
- Java隐式参数this
- 回文子串(动态规划)
- unity网络编程学习
- Crontab整点运行问题
- 资源链接集合