Python 爬虫 —— 获取js渲染的内容

来源:互联网 发布:百度文库 知乎 编辑:程序博客网 时间:2024/05/16 06:35

在访问某网站时发现在HTML源码中看不到所需的数据:

网页内容:
snipaste_20170622_211115.png

HTML源码内容:
snipaste_20170622_212241.png

于是,我们想到了一个最简单的方法——用 Selenium + PhantomJS 来实现模拟浏览从而获取想要的内容。

下面是示例代码:

from selenium import webdriverbrowser = webdriver.PhantomJS(executable_path = './phantomjs')browser.get("http://www.site-digger.com/html/articles/20110516/proxieslist.html")trs = browser.find_elements_by_tag_name('tr')for tr in trs[1:]:    print(tr.text.split(' ')[0])

我们可以看到:

demo.gif

原创粉丝点击