scrapy 抓取js生成页
来源:互联网 发布:怎么查淘宝店铺的电话 编辑:程序博客网 时间:2024/05/20 19:30
1 scedule
scrapy 作为抓取框架,包括了spider,pipeline基础设施
2 webkit
scrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有
python-webkit (相关依赖自行解决)
Xvfb (用于非Xwindow环境)
3 开发downloader middleware
from scrapy.http import Request, FormRequest, HtmlResponse
import gtk
import webkit
import jswebkit
import settings
class WebkitDownloader( object ):
def process_request( self, request, spider ):
if spider.name in settings.WEBKIT_DOWNLOADER:
if( type(request) is not FormRequest ):
webview = webkit.WebView()
webview.connect( 'load-finished', lambda v,f: gtk.main_quit() )
webview.load_uri( request.url )
gtk.main()
js = jswebkit.JSContext( webview.get_main_frame().get_global_context() )
renderedBody = str( js.EvaluateScript( 'document.body.innerHTML' ) )
return HtmlResponse( request.url, body=renderedBody )
4 配置
在scrapy的settings.py中加入:
#which spider should use WEBKIT
WEBKIT_DOWNLOADER=['ccb']
DOWNLOADER_MIDDLEWARES = {
'rate_crawler.dowloader.WebkitDownloader': 543,
}
import os
os.environ["DISPLAY"] = ":0"
5 使用
启动 Xvfb (假设DISPLAY=:0)
要与settings.py中的DISPLAY对应(本例中是:0)。
scrapy crawl xxx
- scrapy 抓取js生成页
- Scrapy+splash抓取js生成的数据
- scrapy结合webkit抓取js生成的页面
- scrapy结合webkit抓取js生成的页面
- scrapy结合webkit抓取js生成的页面
- (python解析js)scrapy结合ghost抓取js生成的页面,以及js变量的解析
- Scrapy webkit 获取js代码执行结果后再抓取
- Scrapy webkit 获取js代码执行结果后再抓取
- Scrapy爬虫中使用Splash抓取动态JS页面
- 利用phantomjs抓取js生成的页面
- Scrapy抓取网页数据
- Python Scrapy抓取数据
- Scrapy抓取壁纸图片
- scrapy抓取登陆页面
- scrapy抓取淘宝女郎
- Scrapy抓取W3C
- scrapy 抓取内涵社区
- python处理scrapy抓取生成的json数据遇到的问题
- 无法离开Linux
- 第一次手机网站建设遇到的问题与知识归纳(一)弹出遮罩、meta内容含义
- php安装xdebug/php安装pear/phpunit详解步骤(图)
- Ubuntu 编译安装Hadoop-2.2.0
- 该如何写设计文档和代码注释
- scrapy 抓取js生成页
- java中的四舍五入研究
- 测试理论-测试用例设计 (一) --- 正交表分析法
- PL/SQL练习范例
- 打开Android C文件中的LOG
- java常见错误及解决方法
- JSTL
- 在ArcGIS中如何使用直连方式连接Oracle数据库
- jquery实现刷新页面的几种方法介绍