写爬虫过程中的一个问题

来源:互联网 发布:网络渠道销售授权书 编辑:程序博客网 时间:2024/04/30 20:50

这几天在写python爬虫。python2.7+selenium+Chrome(为了在测试时实现可视化而使用Chrome,后期换成phantomjs-2.1.1),IDE为pyCharm


爬虫已经写好了,这是开始的一部分代码:

from selenium import webdriverimport osimport timeimport reimport urllibimport threadingdriver = webdriver.Chrome()url = "hhhhhh"driver.get(url)


在测试时,发现代码运行及其慢,所以首先怀疑是自己测试的数据量过大造成的(6780+个网页),遂将数据量改为5,问题依然存在。于是怀疑是电脑当前运行的程序过多,当把电脑重启以后,问题仍在。当我在cmd下运行这几行代码时,发现Chrome很快被驱动(此时怀疑是pyCharm的问题)。


……


然后突然来了灵感,感觉是pyCharm在导入第三方库时出现问题。于是针对此问题进行了测试:

一、在IDE中输入以下代码:

import timestart = time.clock()from selenium import webdriverprint "haha"end = time.clock()print end-start

其运行结果是:



二、在IDE中输入以下代码:

import timestart = time.clock()print "haha"end = time.clock()print end-start

其运行结果是:



分析一、二:

在同样有语句“print "haha" ”的情况下,一比二多一句导入selenium的语句,二者的时间竟相差n个数量级。

也就是说,正是导入selenium模块的操作,费了时间,而在cmd命令行下,并不存在此问题。

为了检验是否为pyCharm版本的问题,特意在原有pyCharm4.5的基础上,又下载安装了2016.03版本,问题仍然存在。


因此,出现费时问题的原因是使用pyCharm导入selenium模块时的速度及其慢


问题找到了,但是出现这个现象的原因、背后的道理以及相应的解决方法还未找到。还望看到此文的各位,有任何想法或者解决方法,多多交流和指点。可怜





0 0
原创粉丝点击