对于利用urllib2批量爬虫遇到HTTP error的解决办法
来源:互联网 发布:网络测试工程师 编辑:程序博客网 时间:2024/06/06 04:34
在批量爬虫网页内容时,很可能有的中间的页面不存在,或跳转至其他页面。如果是利用某个id进行检索的话,遇到此类问题程序就会中断,如果只遇到一两个页面的话还好说,不过当这种情况多的话,就需要python处理错误的机制。类似于其他语言,用try捕捉错误,再用except处理错误就好。
举个例子
for i in range(1,2910): try: count = 6-len(str(i)) flag = 1 temp = '' for j in range(0,count): temp = temp + '0' req = urllib2.urlopen('http://data.eastmoney.com/stockdata/'+temp+str(i)+'.html') if(req.getcode() == '404'): continue buf = req.read() except urllib2.HTTPError: blabla......
阅读全文
0 0
- 对于利用urllib2批量爬虫遇到HTTP error的解决办法
- Python网页爬虫提示urllib2.HTTPError: HTTP Error 403: Forbidden 错误
- Python网页爬虫提示urllib2.HTTPError: HTTP Error 403: Forbidden 错误
- urllib2中碰到HTTPError: HTTP Error 403: Forbidden的解决方案
- urllib2.HTTPError: HTTP Error 403: Forbidden的解决方案
- urllib2.HTTPError: HTTP Error 403: Forbidden
- urllib2.HTTPError: HTTP Error 403: Forbidden 错误
- urllib2.HTTPError: HTTP Error 403: Forbidden
- urllib2.HTTPError: HTTP Error 403: Forbidden
- urllib2.HTTPError: HTTP Error 504: Fiddler
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- 网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- [Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
- nodejs -- basic认证
- vs2013 正在等待后台操作完成。此对话框将在操作完成后关闭...
- 算法储备之Dijkstra算法求单源点最短路径
- 输入一个Email地址,然后使用正则表达式验证该Email地址是否正确。
- iPad2 4.3.3完美越狱教程
- 对于利用urllib2批量爬虫遇到HTTP error的解决办法
- 【最大独立集 && 无墙 && 无向图】HDU
- 自定义View之圆形圆角椭圆进度条等
- Linux文件、文件夹的r、w、x权限含义
- When starting a Java debug session with Team Debug enabled, you may receive the following error and
- ubuntu安装
- 分享一个工具类---SharedPreferences
- 多台服务器共享session问题浅析
- Mongo数据库