[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
来源:互联网 发布:网络舆情工作计划 编辑:程序博客网 时间:2024/06/04 18:55
Q&A:
1.为什么有段时间显示糗事百科不可用?
答:前段时间因为糗事百科添加了Header的检验,导致无法爬取,需要在代码中模拟Header。现在代码已经作了修改,可以正常使用。
2.为什么需要单独新建个线程?
答:基本流程是这样的:爬虫在后台新起一个线程,一直爬取两页的糗事百科,如果剩余不足两页,则再爬一页。用户按下回车只是从库存中获取最新的内容,而不是上网获取,所以浏览更顺畅。也可以把加载放在主线程,不过这样会导致爬取过程中等待时间过长的问题。
项目内容:
用Python写的糗事百科的网络爬虫。
使用方法:
新建一个Bug.py文件,然后将代码复制到里面后,双击运行。
程序功能:
在命令提示行中浏览糗事百科。
原理解释:
首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1
可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备。
然后,右击查看页面源码:
观察发现,每一个段子都用div标记,其中class必为content,title是发帖时间,我们只需要用正则表达式将其“扣”出来就可以了。
明白了原理之后,剩下的就是正则表达式的内容了,可以参照这篇博文:
http://blog.csdn.net/wxg694175346/article/details/8929576
运行效果:
0 0
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析
- [Python]网络爬虫:糗事百科的网络爬虫(v0.2)源码及解析
- [Python]糗事百科的网络爬虫(v0.4)源码
- 糗事百科的网络爬虫(v0.2)源码及解析 .
- [Python]网络爬虫:百度贴吧的网络爬虫(v0.4)源码及解析
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- 华为OJ——超长正整数相加
- String、StringBuffer与StringBuilder之间区别
- 利用msfvenom生成木马程序
- iOS面试总结
- 签名
- [Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
- Oracle like语句优化
- Leetcode 题目列表(难度、出现频率、知识点)
- JAVA并发编程学习笔记之ReentrantLock (r)
- PHP学习:函数的传值和传址
- 二维码全新认识
- 简单毛玻璃实现
- [Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
- Tomcat学习之Context