【原创】python spider …

来源:互联网 发布:js的相对定位 编辑:程序博客网 时间:2024/05/21 05:22
爬取新浪微博的数据,验证码是个问题,很痛苦,又没钱找外包验证码团队,又没技术搞定新浪或者腾讯的验证码,于是乎,费了多少功夫不用说了,只能估模测试搜索限制,愁人。关键代码如下:
import time
#... You Code
import random
n = random.choice([1,2,3,3,3,3,4,4,4,4,4,5,5,5,5,5,5,10])#从列表中选择随机数
print 'while sleep time: %ss ...'% n
time.sleep(n)
#...You Code

新浪微博验证码处理,考虑到效率,还要考虑到验证码承受范围,只能大概控制翻页的时间范围。
之前吧,30 - 40 页绝对要出验证码,很烦人,这个设置后 Never !

0 0
原创粉丝点击