关于Spynner以及browser类---怎样解析动态网页

来源:互联网 发布:c语言面向对象 编辑:程序博客网 时间:2024/06/06 07:38

1. 使用Spynner基于Webkit从最底层模拟浏览器行为,从而爬取动态网页信息。

2. webkit是开源的web浏览器引擎,Iphone 苹果 ios 的safari、谷歌 的chrome浏览器都是基于这个框架来开发的。webkit 还支持移动设备和手机,包括iphone和android手机都是使用webkit做为浏览器的核心。

3. 由于是直接使用浏览器引擎,所以能够访问和修改浏览器的各项底层属性,能够与其进行深度的交互。例如,可以进行代理设置、http头读取和修改、cookie读取和设置、缓存控制、url过滤。

4. qt库是一个跨平台c++图形用户界面应用程序开发框架,qtwebkit是webkit在qt库中的封装。

5. pyqt4是qt库的python实现,我们可以直接使用pyqt4.qtwebkit来实现一个自定义功能的浏览器。

6. spynner是一个对pyqt4.qtwebkit 的封装库,使得qtwebkit更易于使用,该开源项目的位置在https://github.com/makinacorpus/spynner。

7. spynner的例子可以参考https://github.com/makinacorpus/spynner/blob/master/src/spynner/tests/spynner.rst。

8. spynner browser class参考http://pythonhosted.org/spynner/spynner.browser.Browser-class.html

如:(1)

set_html_parser(selfparser)

Set HTML parser used to generate the HTML soup.

When a HTML parser is set for a Browser, the property soup returns the parsed HTML.

(2)


参考:http://www.makaidong.com/%E5%8D%9A%E5%AE%A2%E5%9B%AD%E7%9A%84/6924.shtml

0 0
原创粉丝点击