python图片爬虫
来源:互联网 发布:解析视频软件 编辑:程序博客网 时间:2024/06/07 18:26
0x00编写思路
爬虫说到底就是模拟人机交互,页面对开发人员来说就是代码(html代码),爬取图片就是下载图片,下载图片对应图片url,有了这个思想和操作步骤,总结成以下步骤:
1.获取html页面代码
2.提取html页面代码的图片url
3.根据图片url下载图片
0x01实现代码
#coding=utf-8import urllibimport re#获取站点html代码#string getHtml(url)#{def getHtml(url): page = urllib.urlopen(url) html = page.read() return html#}#下载图片#bool getImg(html):#{def getImg(html): res_url = r"(?<=src=\").+?(?=\")" link = re.findall(res_url, html, re.I | re.S | re.M) x = 0; for url in link: check_value = url.find(".jpg") and url.find("https:"); if check_value != -1: urllib.urlretrieve(url, 'C:\Users\Reacher\Desktop\HtmlSrc\%s.jpg' % x); x = x + 1; return True;#}
0x02遇到的坑
爬下来图片数据的时候,发现一直都是一张图片,那个气啊。通过print()大法发现都没有问题,打开目录发现图片是有下载下来,就是一直在覆盖,喵了个噜。后来检查代码发现
urllib.urlretrieve(url, 'C:\Users\Reacher\Desktop\HtmlSrc\%s.jpg')尴尬,后来改为使用数字统计作为图片名字。
urllib.urlretrieve(url, 'C:\Users\Reacher\Desktop\HtmlSrc\%s.jpg' % x);
阅读全文
0 0
- python多线程图片爬虫
- python爬虫抓取图片
- python实现图片爬虫
- python多线程图片爬虫
- python图片小爬虫
- python 爬虫 爬下图片
- Python网页图片爬虫
- Python爬虫,抓图片
- [Python爬虫]爬取贴吧图片
- Python 图片爬虫
- python 图片小爬虫
- python爬虫之图片
- Python爬虫网页图片
- Python简单图片爬虫
- python 爬虫下载图片
- python图片爬虫
- python爬虫网站图片
- python 爬虫图片
- spring quartz 根据开始时间 结束时间 动态设置任务
- 关于三种编码方式的排雷escape,encodeURI,encodeURIComponent
- spring quartz xml中配置任务
- log4j 日志输出至数据库
- java获得当前时间一小时前的时间
- python图片爬虫
- MySQL 最快速清空数据表数据的 SQL 语句
- java IO 目录列表器
- mui 真机测试下拉刷新不出动画
- Android ImageView的scaleType(图片比例类型)属性与adjustViewBounds(调整视图边界)属性
- 如何用java jdbc 向数据库表插入大数据量
- java读取zip中指定文件
- java 开发IM即时通讯客户端 --安装SWT插件(一)
- springMVC的问题记录