Jsoup登录解析网页信息
来源:互联网 发布:化妆品好坏知多少 编辑:程序博客网 时间:2024/05/17 03:54
今天解析网页的时候,遇到必须登录后才能够访问的问题,在网上搜索了一些资料,反正有人做出来了,不过是使用HttpClient+Jsoup来实现的,我不清楚他们使用什么版本的Jsoup,地址:
HttpClient模拟登陆人人网,并且爬取日志内容(一),http://bbs.csdn.net/topics/390269063,查看现在的Jsoup API,可以直接模拟登陆,获取服务器返回的信息。
我这里是使用水木社区做Demo,其中下面的id和passwd分别是提交form表单中用户名和密码的input的name
<form action="/user/login" method="post"><ul class="sec"><li>用户名:<br/><input type="text" name="id" /></li><li>密码:<br/><input type="password" name="passwd" /></li><li><input type="checkbox" name="save" />记住我<br/><input type="submit" class="btn" value="登录" /></li></ul></form>
Map<String, String> map = new HashMap<String, String>();map.put("id", "****");map.put("passwd", "****");Response response = Jsoup.connect("http://m.newsmth.net/user/login").data(map).method(Method.POST).timeout(20000).execute();if (response.statusCode() == 200) {SmthApp.getInstance().setCookies(response.cookies());}
其中Response里面就有我们需要的Cookie,获取的方式为response.cookies()返回类型是Map,下面是获取浏览器登录返回的Cookie内容,同样我们获取的Cookies也是这些内容。
Set-Cookie:main[UTMPUSERID]=***; path=/; domain=.newsmth.netSet-Cookie:main[UTMPKEY]=97311264; path=/; domain=.newsmth.netSet-Cookie:main[UTMPUSERID]=guest; path=/; domain=.newsmth.netSet-Cookie:main[PASSWORD]=%2501g2VSVO%257D%2507%251DW%253B%2524K%2B%251C%2500a%2502%2501%257DF%2505X; path=/; domain=.newsmth.netSet-Cookie:main[UTMPNUM]=9967; path=/; domain=.newsmth.netSet-Cookie:main[UTMPKEY]=68252570; path=/; domain=.newsmth.netSet-Cookie:main[UTMPNUM]=37535; path=/; domain=.newsmth.net当解析需要登陆的页面时,
Document document = Jsoup.connect(url).timeout(20000).cookies(SmthApp.getInstance().getCookies())//这个就是上面获取的cookies.get();这样就可以模拟登陆解析页面,需要注意的是这个是有时间限制的,当失效后再次请求获取最新的Cookie。
0 5
- Jsoup登录解析网页信息
- Jsoup登录解析网页信息
- Jsoup解析网页获取信息
- android 的模拟网页登录获取信息和JSOUP解析xml
- java 使用Jsoup解析URL网页信息
- HtmlUnit、httpclient、jsoup爬取网页信息并解析
- HtmlUnit、httpclient、jsoup爬取网页信息并解析
- HtmlUnit、Httpclient、Jsoup爬取网页信息并解析
- Android 开源1:获取并解析网页信息(Jsoup)
- 网页解析利器Jsoup
- 网页解析利器Jsoup
- Jsoup 解析Html网页
- Jsoup解析网页
- 网页解析之Jsoup
- jsoup解析网页二
- Jsoup解析网页内容
- 使用Jsoup解析网页
- jsoup 解析HTML信息
- linux服务器安装Blerk DB过程
- .net mvc中对CombresLink(样式与脚本)的引用
- Nginx+memcached+tamcat7集群管理配置方案
- functionCharts学习 常见属性解释
- awk学习总结(一) FORMAT
- Jsoup登录解析网页信息
- AHRS(航姿参考系统)和IMU(惯性测量单元)的区别
- Wow!什么是Wow64
- VintaSoft条码读写.NET控件VintaSoftBarcode.NET Library控件详细介绍及下载
- Dynamics CRM 通过OData查询数据URI中包含中文的情况
- 在myeclipse中调用oracle中的SQL语句
- Ubuntu 12.10安装VirtualBox
- 重构摘要1
- 经纬财富:抚顺现货白银模拟盘