Python3安装PhantomJS和Selenium
来源:互联网 发布:wifi字典破解软件 编辑:程序博客网 时间:2024/05/17 07:52
之前抓取了某个网站,写了个总结。点击打开链接
想着隔一段时间搞一下,结果这几日发现抓取报错。查看一下提示封我IP了。
但是我用浏览器打开是没有问题的。
估计是我写的爬虫隐藏能力还不够强,被直接认定为爬虫了。只是人家唬我而已。其实后来发现是cookie的问题。不过这个文章就不说这个了。
一开始觉得可能是gzip压缩可能被认出,然后我就加了支持gzip了。发下你还不行。只好试试js的运行了。
PhantomJS可以用来执行JavaScript。网上说了很多怎么用。但是都没有几个跟python结合的。虽然标题写着python。
先下载下来再说吧。点击打开链接
下载下来解压,居然是exe的。一脸懵逼。。。
from selenium import webdriverdriver = webdriver.PhantomJS()driver.get("http://hotel.qunar.com/")data = driver.titleprint data
然后人家给了一个测试代码。我死活提示找不到这个模块。
难道我的eclipse有问题?用idle执行以下。还是提示No module named 'selenium'
想想不对啊。模块不是应该叫phantomjs么,怎么成了selenium了。
点击打开链接
继续搜索,发现问题了
原来PhantomJS主要用于java,可以理解成一个比较完善的浏览器,不过这个浏览器不是给人使用的,而是给程序使用的。这不是Python弄出来的东西。是为了自动化前端测试用的。
有了PhantomJS之后,怎么用Python的代码调用它呢?
其实就是selenium的作用了。一开始我以为是一个专门用来调用PhantomJS的模块。
后来发现只要安装相应的插件,还可以调用IE,Chrome,FireFox之类的比较出名的浏览器。
顺便说一下pip的安装。https://pypi.python.org/pypi/pip
可以下载.whl文件。但是这是需要pip来安装,应该是用来升级的。或者用其他的工具来安装的。
另外一个是tar.gz文件。里面好像是有源码,还有一个setup.py文件。下载下来,用python install setup.py即可安装。
然后直接 pip install selenium 即可安装了,不需要自己去找官网下载。它自动下载的。
怪不得很多人说不装pip的都是傻逼。原来我之前一直没弄这个真的是傻逼了。
好吧。上面的测试代码是可以走得通。但是新的问题又来了。
selenium的工作模式明显跟之前用urllib是不同的。之前写的代理池,头生成,模拟,隐藏,好像都用不上。
不过好像还是可以设置的。基本上是把原来的全隐藏了,现在更像使用工具。不过作为一个黑盒子式的工具,肯定也有不方便的地方。
只能慢慢研究了。不过我自己是以成果导向来学习的。不知道啥时候再了解这个了。哈哈哈
1 0
- Python3安装PhantomJS和Selenium
- 安装Selenium和安装PhantomJS
- Python3+phantomjs+selenium配置
- 在linux下安装phantomjs和selenium
- mac 上安装selenium, phantomjs 和 chromedriver
- 安装Selenium&PhantomJS
- Selenium和PhantomJS介绍
- PhantomJS、Selenium、Chrome驱动的mac版安装和配置
- win7安装python3.6和selenium
- python3安装selenium
- 直播网站LiveTV Mining,爬虫抓取数据 python3+selenium+phantomjs
- 基于Python3的phantomJs+Selenium动态网页爬取技术
- selenium phantomjs
- selenium+phantomjs
- Selenium+phantomJS
- 安装casperjs和phantomjs
- 安装 caseprjs 和 phantomjs
- 安装和使用PhantomJS
- Error 错误 程序包 databinding不存在
- Button
- back up与converge
- 完整的Hololens资源网站列表
- ISCC reverse writeup-301
- Python3安装PhantomJS和Selenium
- 截图的应用
- (转)MySQL单表百万数据记录分页性能优化
- selenium之 chromedriver与chrome版本映射表(更新至v2.29)
- 杭电oj(Java版)——1257 最少拦截系统
- 验证码图片中文不显示解决方法!!!
- linux下doxygen的安装与使用说明
- [JIRA] 最新Linux安装版本jira6.3.6安装破解以及数据导入的详细步骤
- 一步一步学习 ReactNative + Redux(4:中间件)