Python3安装PhantomJS和Selenium

来源:互联网 发布:wifi字典破解软件 编辑:程序博客网 时间:2024/05/17 07:52

之前抓取了某个网站,写了个总结。点击打开链接
想着隔一段时间搞一下,结果这几日发现抓取报错。查看一下提示封我IP了。
但是我用浏览器打开是没有问题的。
估计是我写的爬虫隐藏能力还不够强,被直接认定为爬虫了。只是人家唬我而已。其实后来发现是cookie的问题。不过这个文章就不说这个了。
一开始觉得可能是gzip压缩可能被认出,然后我就加了支持gzip了。发下你还不行。只好试试js的运行了。

PhantomJS可以用来执行JavaScript。网上说了很多怎么用。但是都没有几个跟python结合的。虽然标题写着python。
先下载下来再说吧。点击打开链接
下载下来解压,居然是exe的。一脸懵逼。。。
from selenium import webdriverdriver = webdriver.PhantomJS()driver.get("http://hotel.qunar.com/")data = driver.titleprint data

然后人家给了一个测试代码。我死活提示找不到这个模块。
难道我的eclipse有问题?用idle执行以下。还是提示No module named 'selenium'
想想不对啊。模块不是应该叫phantomjs么,怎么成了selenium了。
点击打开链接

继续搜索,发现问题了
原来PhantomJS主要用于java,可以理解成一个比较完善的浏览器,不过这个浏览器不是给人使用的,而是给程序使用的。这不是Python弄出来的东西。是为了自动化前端测试用的。
有了PhantomJS之后,怎么用Python的代码调用它呢?
其实就是selenium的作用了。一开始我以为是一个专门用来调用PhantomJS的模块。
后来发现只要安装相应的插件,还可以调用IE,Chrome,FireFox之类的比较出名的浏览器。

顺便说一下pip的安装。https://pypi.python.org/pypi/pip
可以下载.whl文件。但是这是需要pip来安装,应该是用来升级的。或者用其他的工具来安装的。
另外一个是tar.gz文件。里面好像是有源码,还有一个setup.py文件。下载下来,用python install setup.py即可安装。

然后直接 pip install selenium 即可安装了,不需要自己去找官网下载。它自动下载的。

怪不得很多人说不装pip的都是傻逼。原来我之前一直没弄这个真的是傻逼了。


好吧。上面的测试代码是可以走得通。但是新的问题又来了。

selenium的工作模式明显跟之前用urllib是不同的。之前写的代理池,头生成,模拟,隐藏,好像都用不上。

不过好像还是可以设置的。基本上是把原来的全隐藏了,现在更像使用工具。不过作为一个黑盒子式的工具,肯定也有不方便的地方。

只能慢慢研究了。不过我自己是以成果导向来学习的。不知道啥时候再了解这个了。哈哈哈




1 0