HtmlUnit 模拟浏览器以及Cookie使用示例
来源:互联网 发布:vs2010是什么软件 编辑:程序博客网 时间:2024/05/21 07:53
String url="http://outofmemory.cn/";//想采集的网址 String refer="http://outofmemory.cn/"; URL link=new URL(url); WebClient wc=new WebClient(); WebRequest request=new WebRequest(link); request.setCharset("UTF-8"); request.setProxyHost("120.120.120.x"); request.setProxyPort(8080); request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段 ////设置请求报文头里的User-Agent字段 request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。 //其他报文头字段可以根据需要添加 wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理 wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的 wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。 wc.getOptions().setThrowExceptionOnFailingStatusCode(false); wc.getOptions().setThrowExceptionOnScriptError(false); wc.getOptions().setTimeout(10000); //设置cookie。如果你有cookie,可以在这里设置 Set<Cookie> cookies=null; Iterator<Cookie> i = cookies.iterator(); while (i.hasNext()) { wc.getCookieManager().addCookie(i.next()); } //准备工作已经做好了 HtmlPage page=null; page = wc.getPage(request); if(page==null) { System.out.println("采集 "+url+" 失败!!!"); return ; } String content=page.asText();//网页内容保存在content里 if(content==null) { System.out.println("采集 "+url+" 失败!!!"); return ; } //搞定了 CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。
0 0
- HtmlUnit 模拟浏览器以及Cookie使用示例
- 使用HtmlUnit模拟浏览器执行JS来获取网页内容
- 模拟浏览器的神器 - HtmlUnit
- 利用HtmlUnit 模拟浏览器抓取网页数据
- HTMLUnit进行模拟浏览器抓取优劣
- htmlunit 示例
- htmlunit示例
- 使用HtmlUnit模拟登陆新浪微博
- htmlunit模拟浏览器实现163邮箱自动登录
- 用htmlunit模拟浏览器辅助python做页面爬虫
- HtmlUnit实现模拟浏览器点击按钮的效果
- Htmlunit 创建webclient 模拟浏览器进行解析页面
- python中urllib2高级应用 使用代理 模拟浏览器 cookie
- Cookie-使用HtmlUnit/HttpClient中遇到的问题
- htmlunit使用
- htmlUnit使用
- htmlunit模拟注册
- htmlunit 模拟登陆 https
- iOS中使用int类型会出现的问题和解决办法
- Lucene4.7 索引和检索的常用API(二)
- Bug的严重等级和优先级
- 分布式搜索Elasticsearch——集成paoding-maping
- 1036. 跟奥巴马一起编程(15)
- HtmlUnit 模拟浏览器以及Cookie使用示例
- github 导入的类控件属性失效
- 1.1.3
- lucene-对多个索引的搜索和多线程搜索
- tika读取文件内容
- iOS应用程序状态切换相关
- lucene开发序幕曲之luke神器
- libevent源码深度剖析四
- ATS(iOS开发网络适配)一劳永逸的办法