Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
来源:互联网 发布:饥荒mac汉化补丁 编辑:程序博客网 时间:2024/04/30 02:19
最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地。自己写这篇文章总结下这个项目的所涉及的知识,并将实现过程分享给大家。
首先:分析网站,找到图片的src地址
打开网址:https://www.doutula.com/article/list/?page=1,从网址,我们可以推断出page={页码数字}是为了控制分页。
在每一中,我们可以看到大致有10个套图(套图点击之后是套图里面的具体图片,大致每个套图里有9张表情图),分别放在class为.list-group-item的a标签里,详情如下面的两张图片:
点击一个套图连接之后,我们可以看到套图下的所有图片,然后选择一张图片观察它的src地址,后来发现就是img的属性 onerror的内容(至于为什么不是img下的src,大家可以访问地址试下)
其次:爬取思路(关键)
在第一步分析网站准备工作之后,我们思考下:怎么实现多页爬取?怎么获取每一页所有套图的连接?怎么获取每一套图里面所有表情图片的src?最后怎么实现多线程爬取(加快速度)?为了实现思路清晰,我们将每个模块封装成函数,下面相关代码模块:
(我还不知道简书怎么加入代码框,有没有大佬可以告诉我)
(1)获取一个网页的源码
url地址是指每一页的地址,等会用format函数传递页码,实现多页爬取
(2)获取每一页的所有套图的链接,利用套图链接去获取所有套图详情网页源码(有点绕)
(3)利用xpath获取每一个图片的带有src地址的onerror属性内容
这里解释下这段代码:一页中有10个套图,然后每个套图中有9个图片,所以我们在这里获得的items有90个(图片所在的div),然后我们在每一个items中获取onerror里的内容,以便(4)步中的start_save_img()调用
(4)利用正则获取onerror内容里的图片src地址,然后用多线程实现下载图片
首先解释下 start_save_img(imgurl_list):参数 imgurl_list是我们(3)中获得onerror的内容(注意:不是图片的src地址,我们还要用注册和切片处理下)。其中我们在for循环中创建一个线程,调用的方法是save_img,传递的参数是onerror
save_img(img_url):接到onerror,用正则和切片处理后获得到每个图片的src地址,最后保存到本地,% img_url.split('/')[-1]这个事命名方式,大家可以仔细观察下每个图片得src地址最一个/后的内容不一样(这里大家也可以用其他方式命名)
(5)调用方法执行
最后:运行代码,效果如下:
总结:这个小项目其实用到很多Python爬虫的知识,并且涉及到多线程,爬取速度还算可以。代码都会写,还是希望自己可以掌握这些方法,下次拿到别的网站自己也会有大致思路了。(ps:如果我有的地方写的不对后者解释不当,请大家海涵和留言指出)
(ps:源码的话,建议先按图片敲一遍,动手实践下,好处我不说了。或者可以留言邮箱,我发给大家)
- Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
- python爬虫系列(五):多线程实例
- Python爬虫(一)别说话快上车:改写第一个爬虫程序
- python 网络爬虫(三) 多线程,gzip加速,网页下载
- Python高级爬虫(三):数据存储以及多线程
- python网络爬虫入门(三)———多线程
- python 爬虫(三)
- python爬虫(三)
- python爬虫(三)
- 用Python写网络爬虫系列(三)表单处理
- python爬虫系列之爬取百度文库(三)
- python爬虫系列(一):爬虫简介
- Python 爬虫系列(一)
- Python爬虫(单线程爬虫(三))
- Python 爬虫笔记(三)
- python网络爬虫(三)
- python爬虫笔记(三)
- Python爬虫小记(三)
- express里的中间件
- 2470: Puya和她学弟们
- TCP/IP协议基础概念
- 简述this 和supper 的区别
- 人工智能未来会在哪几大领域改变我们生活?
- Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
- python之字符串
- java基础技术知识点总结——初始化
- 从rds的全量备份和日志备份恢复数据到最新的数据的方法
- Problem A: 好多书啊!
- Sequence Number
- 对象序列化和反序列化
- 逆向工程核心原理学习笔记(十四):栈帧1
- shell脚本抽取文本文件中指定字符串的方法:sed+grep方法、awk+grep方法(必要时可以联合sed以及grep)、grep+cut方法