利用htmlunit——WebClient实现的java爬虫程序
来源:互联网 发布:跨运营商之间网络不通 编辑:程序博客网 时间:2024/06/01 10:03
使用htmlunit/WebClient实现java爬虫程序,可以实现抓下css文件和js文件从而可以尽可能保留网页原有的样式和动态效果。
最重要的是可以实现抓取js动态加载的数据。
具体代码如下所示:
其中,webClient.getOptions().setUseInsecureSSL(true);的使用可以使程序抓取具有验证功能的网站。
package com.kinth.worker.webmagic.processors;import java.io.IOException;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class Crawler { public static void main(String[] args) { WebClient webClient= new WebClient(BrowserVersion.CHROME);//设置浏览器 webClient.getOptions().setUseInsecureSSL(true); webClient.getOptions().setCssEnabled(true);//设置css是否生效 webClient.getOptions().setJavaScriptEnabled(true);//设置js是否生效 webClient.setAjaxController(new NicelyResynchronizingAjaxController());//设置ajax请求 webClient.getOptions().setTimeout(10000); webClient.waitForBackgroundJavaScript(3000); HtmlPage htmlPage = null; try { htmlPage = webClient.getPage("https://auction.rmfysszc.gov.cn/Result.aspx"); } catch (FailingHttpStatusCodeException | IOException e) { // TODO Auto-generated catch block e.printStackTrace(); }//访问路径设置 System.out.println(htmlPage.asXml()); webClient.close(); System.out.println("Success"); System.exit(0); }}
本文项目源代码:
https://github.com/ahongl/ClassicalCode/blob/master/InternetWormDemo.java
阅读全文
1 0
- 利用htmlunit——WebClient实现的java爬虫程序
- HtmlUnit--java网络爬虫
- Java爬虫学习:利用HttpClient和Jsoup库实现简单的Java爬虫程序
- HtmlUnit实现ajax网络爬虫
- htmlunit.WebClient 和 client.HttpClients 的比对
- HtmlUnit 爬虫简单案例——模拟登陆CSDN
- Java爬虫进阶-HtmlUnit使用解析
- 多线程实现的Java爬虫程序
- 多线程实现的Java爬虫程序
- 用多线程实现的Java爬虫程序
- 爬虫实战:一个简易 Java 爬虫程序的实现
- 利用WebClient实现文件传送
- 基于HTMLUnit的微博爬虫
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- HtmlUnit实现的网站登录
- java实现网络爬虫程序
- canvas标签
- .NET Core 2.0 开源Office组件 NPOI
- JIRA 7.2.2破解版 服务端安装
- android HDMI (一):HDMI基础篇
- Codeforces AIM Tech Round 3 (Div. 2)(A-D 未完)
- 利用htmlunit——WebClient实现的java爬虫程序
- 1007(优先队列)
- 图片的放大缩小
- Unity入门操作_射线_016
- phpqrcode 生成图片显示出错
- PAT basic 1051
- 多布局的自定义Adapter
- 字符串问题---0左边必有1的二进制字符串数量
- HDU 2298 Toxophily(公式推导)