HtmlUnit爬取动态数据(js相关)
来源:互联网 发布:网络系统解决方案 编辑:程序博客网 时间:2024/05/21 11:36
今天在写一个爬虫的时候遇到了一个问题,就是在使用Jsoup获取html时只能解析静态的页面,只要是页面中与js相关的动态数据都是不能够爬取到的,在网上搜索了些资料后发现能够使用htmlunit来解决这个问题
- 参考资料:http://www.cnblogs.com/cation/p/3933408.html
- jar包下载:http://sourceforge.net/projects/htmlunit/files/htmlunit/
- 简单使用:
// 创建模拟浏览器,参数可以指定不同类型的浏览器WebClient webClient = new WebClient(); // 启用JS解释器,默认为truewebClient.getOptions().setJavaScriptEnabled(true); // 禁用css支持webClient.getOptions().setCssEnabled(false);// js运行错误时,是否抛出异常webClient.getOptions().setThrowExceptionOnScriptError(false);// 设置超时webClient.getOptions().setTimeout(20000);// page 就是你获取到的html,你可以进一步的解析数据HtmlPage page = webClient.getPage("yourUrl"); // 这里我会使用Jsoup对html页面进行解析Document document = Jsoup.parse(pageXml);/** WebClient,WebWindow,Page三者之间的关系,* 所有的页面最终都是在一个WebWindow对象里面,* WebClient在创建时会自动的创建一个WebWindow对象,* 当调用getPage时会将新页面加载到WebWindow里,* 你可以理解成WebClient就是IE内核,WebWindow就是呈现页面的浏览器窗口, */
- 总结:在这里主要是说一下如何使用HtmlUnit来简单爬取动态网页的数据(主要是与js相关的),至于该框架的一些元素检索、表单提交和代理服务器的详细功能可以参考上面给出的大牛的博客
阅读全文
2 0
- HtmlUnit爬取动态数据(js相关)
- htmlunit爬取数据
- 利用htmlunit和jsoup来实现爬取js的动态网页
- htmlunit爬取js异步加载后的页面
- htmlunit爬取js异步加载后的页面
- HtmlUnit动态执行js函数
- Htmlunit之爬取网页
- 动态数据爬取
- htmlunit爬取javascript、Ajax 动态生成的网页;jsoup解析XML文档
- 爬取js动态生成后的数据
- htmlunit使用教程爬取网站的数据并保存成Excel表格
- HtmlUnit爬取页面列表链接
- js动态添加删除,后台取数据
- 爬取网页动态数据
- htmlunit爬取Ajax动态生成的网页获取不到生成后的结果的问题的解决
- JavaWEB学习记录--HtmlUnit爬网页数据
- HtmlUnit、httpclient、jsoup爬取网页信息并解析
- java使用htmlunit爬取百度搜索信息
- 进程的调度与使用
- hibernate中将视图进行映射
- hibernate 关联关系配置(一对多、一对一和多对多)
- win10+python3.6+scrapy安装过程
- c语言结构体的字符串赋值
- HtmlUnit爬取动态数据(js相关)
- jQuery.extend()方法和jQuery.fn.extend()方法源码分析
- 界面切换技术
- PAT1065 单身狗(25)
- 教程学习 02-Scheduling Tasks 学习笔记
- 约瑟夫问题
- Spring的IOC原理[通俗解释一下]
- 顺序表
- 题解——Leetcode 5. Longest Palindromic Substring 难度:Medium