使用phantomjs+java 爬取AJAX页面
来源:互联网 发布:网络卡牌类游戏 编辑:程序博客网 时间:2024/05/16 07:26
phantomjs:我的理解就是它是一个无显示的浏览器,也就是说除了不能显示页面内容以外,浏览器能干的活儿它基本上都能干。so,最近由于实验需要,要从某电商爬一点图片,但是它又是AJAX生成的,单纯的爬取HTML的方法是行不通的,o(╯□╰)o,于是在经过一些求助后,;了解到了PHANTOMJS,鉴于网上没找到太多实例,只好自己总结下以备不时之需。另外直接查看官网上的说明文档会有很大收获滴~顺便锻炼下自己英文嘛o(╯□╰)o。下面举个栗子来具体实现:
把phantom下载解压到D盘,在目录下有phantomjs.exe文件(win7) 通过js文件可以调用这个WebKit来达到需要的目的:比方说生成网页快照之类吧。我要做的是爬AJAX页面上的图片。先看js文件:命名为S.JS
system = require('system') //传递一些需要的参数给js文件
address = system.args[1];//获得命令行第二个参数 ,也就是指定要加载的页面地址,接下来会用到
var page = require('webpage').create();
var url = address;
page.open(url, function (status) {
if (status !== 'success') {
console.log('Unable to post!');
} else {
var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式,选择合适的编码格式很重要,不然你抓取下来的页面会乱码o(╯□╰)o,给出的几个编码格式是官网上的例子,根据具体需要自己去调整。
for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦
phantom.outputEncoding = encodings[i];
console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容
}
}
phantom.exit();
});
接下来就是java类的编写:
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
public class getContent {
public static String getAjaxCotnent(String url) throws IOException {
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
public class getContent {
public static String getAjaxCotnent(String url) throws IOException {
// 调用命令行运行phantomjs来执行s.js文件,这里的路径需要写全,否则是没有办法运行的,具体原因就不去考察了
// 通过此方法返回的就是把AJAX页面完全加载之后的浏览器的内容,以字符串的形式返回
Runtime rt = Runtime.getRuntime();
Process p = rt.exec("d:/phantomjs/phantomjs.exe d:/phantomjs/s.js "+url);
InputStream is = p.getInputStream();
BufferedReader br = new BufferedReader(new InputStreamReader(is));
StringBuffer sbf = new StringBuffer();
String tmp = "";
while((tmp = br.readLine())!=null){
sbf.append(tmp);
}
//System.out.println(sbf.toString());
return sbf.toString();
}
}
到这里,就得到了所需要的AJAX完整页面的代码字符串了,接下来就可以do whatever you want啦
阅读全文
0 0
- 使用phantomjs+java 爬取AJAX页面
- phantomjs实例爬取AJAX页面
- Selenium+PhantomJS 爬取页面
- 使用 phantomjs 异步爬取 ajax 网页数据
- 一起学爬虫 Node.js 爬虫篇(三)使用 PhantomJS 爬取动态页面
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
- java使用phantomJs抓取动态页面
- java使用phantomJs抓取动态页面
- 使用selenium+PhantomJS 解决Ajax登录页面重定向问题
- 基于Python,Selenium和PhantomJS实现动态页面爬取
- Node.js 动态网页爬取 PhantomJS 使用入门
- Scrapy--使用phantomjs爬取花瓣网图片
- Java实现爬取网页数据:PhantomJS+Webdriver
- Selenium+PhantomJS爬取淘宝
- java爬取页面
- python +selenium+phantomjs 登录爬取新浪微博动态js页面
- selenium+ phantomjs实现动态网页爬取
- selenium+ Phantomjs爬取动态网页
- 从网络请求数据保存到数据库。
- vc编译libuv
- linux查看日志
- 用IOT的思维来管理我们的查看我们重要业务的服务器健康状态-Powershell模块配置篇!
- 湘潭大学2017年下学期程序设计实践-模拟测试2 题解
- 使用phantomjs+java 爬取AJAX页面
- (1)mysql--查询成绩最高和最低的人
- 对vim进行设置
- cordova插件开发中遇到的一些问题
- Python备忘录
- 两种方式写小标签<p></p>、<span></span>
- 使用git上传项目到coding
- CF121E Lucky Array(线段树+暴力)
- AngularJS 路由