htmlunit网络爬虫相关
来源:互联网 发布:花衣吹笛手 知乎 编辑:程序博客网 时间:2024/06/06 01:57
http://sourceforge.net/projects/htmlunit/files/
String url="http://news.cnblogs.com/";//想采集的网址
String refer="http://www.cnblogs.com/";
URL link=new URL(url);WebClient wc=new WebClient();WebRequest request=new WebRequest(link);request.setCharset("UTF-8");request.setProxyHost("120.120.120.x");request.setProxyPort(8080);request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段////设置请求报文头里的User-Agent字段request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。//其他报文头字段可以根据需要添加wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。wc.getOptions().setThrowExceptionOnFailingStatusCode(false);wc.getOptions().setThrowExceptionOnScriptError(false);wc.getOptions().setTimeout(10000);//设置cookie。如果你有cookie,可以在这里设置Set<Cookie> cookies=null;Iterator<Cookie> i = cookies.iterator();while (i.hasNext()){ wc.getCookieManager().addCookie(i.next());} //准备工作已经做好了HtmlPage page=null;page = wc.getPage(request);if(page==null){ System.out.println("采集 "+url+" 失败!!!");return ;} String content=page.asText();//网页内容保存在content里if(content==null){ System.out.println("采集 "+url+" 失败!!!");return ;} //搞定了CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's nameSet<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦
- htmlunit网络爬虫相关
- HtmlUnit--java网络爬虫
- 网络爬虫--HtmlUnit
- HtmlUnit实现ajax网络爬虫
- 基于HtmlUnit网络爬虫(一)
- htmlunit爬虫工具使用
- 使用HtmlUnit做爬虫
- 网络爬虫相关知识点
- HtmlUnit爬虫解决url中文
- htmlUnit使用简介(爬虫)
- HTMLUnit爬虫模拟登录Linkedin
- 网络爬虫_网页登录(苏宁 有验证码)—基于HtmlUnit
- 网络搜索引擎-爬虫,相关文章
- 基于HTMLUnit的微博爬虫
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- Java爬虫进阶-HtmlUnit使用解析
- 爬虫的自我解剖(抓取网页HtmlUnit)
- HDU—— 2500 做一个正气的杭电人
- Spring下载地址
- js变量的作用域
- 【Cocos2d-x】C++自定义线程安全消息管理
- 搭个简单Jersey+spring工程
- htmlunit网络爬虫相关
- nodeJs基础
- 单链表实现快排
- Codeforces Round #277.5 (Div. 2)
- 好无赖哦啊,无赖的人生
- IOS NSStream.h
- Mysql自带profiling性能分析工具
- JdbcHelper 如何加载数据源
- 理解同步与异步