HtmlUnit爬取动态数据(js相关)

来源：互联网发布：网络系统解决方案编辑：程序博客网时间：2024/05/21 11:36

今天在写一个爬虫的时候遇到了一个问题，就是在使用Jsoup获取html时只能解析静态的页面，只要是页面中与js相关的动态数据都是不能够爬取到的，在网上搜索了些资料后发现能够使用htmlunit来解决这个问题

参考资料：http://www.cnblogs.com/cation/p/3933408.html
jar包下载：http://sourceforge.net/projects/htmlunit/files/htmlunit/
简单使用：

// 创建模拟浏览器，参数可以指定不同类型的浏览器WebClient webClient = new WebClient(); // 启用JS解释器，默认为truewebClient.getOptions().setJavaScriptEnabled(true); // 禁用css支持webClient.getOptions().setCssEnabled(false);// js运行错误时，是否抛出异常webClient.getOptions().setThrowExceptionOnScriptError(false);// 设置超时webClient.getOptions().setTimeout(20000);// page 就是你获取到的html，你可以进一步的解析数据HtmlPage page = webClient.getPage("yourUrl"); // 这里我会使用Jsoup对html页面进行解析Document document = Jsoup.parse(pageXml);/** WebClient,WebWindow,Page三者之间的关系,* 所有的页面最终都是在一个WebWindow对象里面，* WebClient在创建时会自动的创建一个WebWindow对象，* 当调用getPage时会将新页面加载到WebWindow里，* 你可以理解成WebClient就是IE内核，WebWindow就是呈现页面的浏览器窗口，     */

总结：在这里主要是说一下如何使用HtmlUnit来简单爬取动态网页的数据(主要是与js相关的)，至于该框架的一些元素检索、表单提交和代理服务器的详细功能可以参考上面给出的大牛的博客

阅读全文

2 0